龙源期刊网 http://www.qikan.com.cn
新闻文档关键词抽取技术研究
作者:王民
来源:《科技传播》2015年第07期
摘 要 关键词抽取是从文档中筛选出核心的词语,简要概括文档的主题。对于新闻文档来说,有效的关键词抽取可以帮助读者迅速筛选感兴趣的内容,提高用户体验。传统的关键词抽取技术主要考虑词语的统计特征,使得选出的都是出现频率较高的词语。然而有些关键词在文档中并没有很高的统计词频,这就造成文档和关键词之间较大的词汇差异。另外有些关键词语是由多个词组合而成,而这些词语并不存在于候选的关键词列表当中,这也会对关键词抽取的结果产生一定的影响。本文以新华社真实的新闻语料作为实验数据集,进行关键词抽取技术研究,通过构建“文档-关键词”翻译器,并对机器翻译的方法进行训练,提高文档词和关键词之间的翻译概率;把训练的模型进行抽象模型化,实现关键词抽取,取得良好的效果。同时,通过引入维基百科词条库进行词语合并,使得关键词抽取效果得到更进一步的提升。 关键词 关键词抽取;新闻网页处理;机器翻译;短语合成
中图分类号 G2 文献标识码 A 文章编号 1674-6708(2015)136-0085-02 1 关键词特点和原理分析
关键词作为一篇文档的简要概括,通常是由几个词语组成。合适的关键词可以作为文档的高度概括,帮助读者快速浏览了解文档的主题内容。
关键词在期刊和会议论文当中通常是由作者自己标注,然而,对于大量的新闻文章往往没有关键词。因此如何自动地从新闻文档中抽取出合适的关键词具有很重要的实际应用及研究价值。
关于关键词抽取的大多数方法主要集中在对文档词的统计特性研究。这些方法有很大的局限性,特别是对于简短的文本内容,这些方法会表现出很差的效果。这样会产生文档词和关键词之间显著的词汇差异现象。
另外,关键词可能是一个单独的词语,也可能是由多个词语组合而成。因此如果不对文档分词后的词语进行适当词语合并,也会造成文档词与关键词之间的词汇差异。
从以上的分析当中我们可以看出,如何解决文档词与关键词之间的词汇差异是关键词抽取技术的关键。因此在本文中我们通过两种方式去解决词汇差异现象。
1)通过引入维基百科词条库,对分词后的词语进行词语合并处理,解决文档分词后不包括关键词的情况。