基于MB-LDA模型的微博主题挖掘(10)

2021-02-21 13:44

2.关于文本主题挖掘算法2.3 基于概率模型的主题挖掘算法 概要:主题模型(topicmodel)中假设,主题可以根据一定的规则生成单词,那么在

已经知道文本单词的情况下,可以通过概率方法反推出文本集的主题分布情况.最具

代表性的是PLSA (概率潜语义模型)和LDA(潜在狄利克雷模型).

PLSA沿用了LSA的降维思想:主题挖掘就是通过“降维”将文档从高维空间投影到了语义空间。

LDA在PLSA的基础上加入了Dirichlet先验分布,是PLSA的一个突破性的延伸.并引入了超参数,形成了一个“文档一主题一单词”3层的贝叶斯模型,然后通过运用概率方 法对模型进行推导,来寻找文本集的语义结构,挖掘文本的主题.

优点:计算复杂度小于传统SVD

(奇异值分解)算法;在性能和处理大规模数据方面

也优于LSA;还可应用于处理非文本文件。


基于MB-LDA模型的微博主题挖掘(10).doc 将本文的Word文档下载到电脑 下载失败或者文档不完整,请联系客服人员解决!

下一篇:变电站综合自动化系统的内容和功能

相关阅读
本类排行
× 注册会员免费下载(下载后可以自由复制和排版)

马上注册会员

注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
微信: QQ: