导入
1 | from sklearn.feature_extraction.text import CountVectorizer |
使用示例
1 | # 新建一个CountVectorizer对象,以下简称CV对象 |
重要参数说明
min_df
: 用于排除出现次数太少的termsmin_df = 0.01
意味着将忽略出现在少于%1的文档中的词min_df = 5
意味着将忽略只出现在5篇以下文档中的词,不包括5篇
max_df
:max_df = 0.50
意味着将忽略出现在多于%50的文档中的词max_df = 25
意味着将忽略出现在25篇以上文档中的词,不包括25篇