Sklearn——CountVectorizer使用介绍

导入

1	from sklearn.feature_extraction.text import CountVectorizer

使用示例

# 新建一个CountVectorizer对象，以下简称CV对象
vectoerizer = CountVectorizer(min_df=min_df, max_df=max_df, stop_words=stop_words, token_pattern=r"(?u)\b[\w-][\w-]+\b")

# 使用文本集合(一个文本的列表)训练当前CountVectorizer对象
# texts = ["this is a text", "this is another text"]
vectoerizer.fit(texts)

# 训练后可以读取当前CV对象信息
bag_of_words = vectoerizer.get_feature_names()

# 使用CV对象生成任意文本集合的信息，返回对象是文档到字典的数组统计(统计单词数量)
# 这里的texts不必要是之前使用过的，可以是新的文本集合，但是词典已经确定，不能再拓展了，不存在字典中的词直接忽略
X = vectoerizer.transform(texts)

# 使用X对象，toarray()将返回 term/token counts 矩阵，可直接用于TfidfTransformer等对象的训练
X.toarray()

重要参数说明

min_df: 用于排除出现次数太少的terms
- min_df = 0.01 意味着将忽略出现在少于%1的文档中的词
- min_df = 5 意味着将忽略只出现在5篇以下文档中的词，不包括5篇
max_df:
- max_df = 0.50 意味着将忽略出现在多于%50的文档中的词
- max_df = 25 意味着将忽略出现在25篇以上文档中的词，不包括25篇