2.关于文本主题挖掘算法2.3 基于概率模型的主题挖掘算法 概要:主题模型(topicmodel)中假设,主题可以根据一定的规则生成单词,那么在
已经知道文本单词的情况下,可以通过概率方法反推出文本集的主题分布情况.最具
代表性的是PLSA (概率潜语义模型)和LDA(潜在狄利克雷模型).
PLSA沿用了LSA的降维思想:主题挖掘就是通过“降维”将文档从高维空间投影到了语义空间。
LDA在PLSA的基础上加入了Dirichlet先验分布,是PLSA的一个突破性的延伸.并引入了超参数,形成了一个“文档一主题一单词”3层的贝叶斯模型,然后通过运用概率方 法对模型进行推导,来寻找文本集的语义结构,挖掘文本的主题.
优点:计算复杂度小于传统SVD
(奇异值分解)算法;在性能和处理大规模数据方面
也优于LSA;还可应用于处理非文本文件。