LDA在Python库gensim中的模型和参数介绍
API
1 | class LdaModel(interfaces.TransformationABC, basemodel.BaseTopicModel): |
1 | # a simple example |
Parameters
主要参数:
corpus: 语料库,类似于
[ [(1, 1),(4, 1)], [(2, 1),(3, 2)] ]
- gensim库中一般默认corpus参数是经过字典编码统计的,类似于上面的形式,而texts是文本的列表的形式
num_topics: 主题数量,超参数
id2word: dict of (int, str), :class:
gensim.corpora.dictionary.Dictionary
- 用于将corpus中的数字与词进行对应,这里应该为把texts转成corpus的那个字典
passes: 训练时的迭代次数
iterations: 推断时的迭代次数
alpha: 主题的先验概率
- 一个num_topics大小的数组表明每个主题的概率
- 也可以是str类型的值
- “asymmetric”: 固定初始化为1.0/num_topics
decay: (0.5, 1]之间的浮点数,前一个lambda值被遗忘的百分比?【待确认参数】
其他参数:
- distributed: 是否使用分布式计算
相关类介绍
- gensim.corpora.dictionary.Dictionary
1
2class Dictionary(utils.SaveLoad, Mapping):
def__init__(self, documents=None, prune_at=2000000)
1 | # a simple example |