摘要:Twitter等微博网站日趋流行,已成为海量信息的发布体.在数据挖掘领域,尽管传统文本的主题挖掘已经得到了广泛的研究,但对于微博这种特殊的文本,因其本身 带有一些结构化的社会网络方面的信息,传统的文本挖掘算法不能很好地对它进行建 模.提出了一个基于LDA的微博生成模型MB-LDA,综合考虑了微博的联系人关联关系和文本 关联关系,来辅助进行微博的主题挖掘.采用吉布斯抽样法对模型进行推导,不仅能挖掘 出微博的主题,还能挖掘出联系人关注的主题.此外,模型还能推广到许多带有社交网络 性质的文本中.在真实数据集上的实验表明,MB-LDA模型能有效地对微博进行主题挖掘.
关键词:微博;主题挖掘;LDA;概率生成模型;社交网络