关于新闻和微博的大规模情感分析
摘要
报纸和微博用来表达对最近报道的新鲜实体(任务、地点、事情)的观点。我们创造一个以打分的形式存在的系统,此系统用来指示文本语料库中的对每一个有区别的实体的积极和消极的观点。我们的系统包括一个与每一个相关实体的观点相联系的情感识别阶段和一个对同一类中每一个其他相关实体打分的情感聚集和评分阶段。最后,我们评估这种基于新闻和微博大规模语料库的这种打分技术的意义。 1. 简介
新闻有好坏之分,但却很少有中立的情况。尽管在机器的操控下对于自然语言文本的充分理解发展得很好,但是对简单情感核心的相关性的数据分析可以提供一些令人惊奇的、有意义的的理解,这些理解都是关于最近的新闻消息如何影响重要的实体的。
在这篇论文中,我们将论述基于Lydia文本分析系统[1、2、3、4、5]顶部的对于新闻和微博实体大规模情感分析的发展。我们决定成千上万的所追踪的实体的公共情感和这种情感如何随着时间变化。我们鼓励读者学习我们在http://www.textmap.com/sentimen上对于所喜欢的新闻实体的历史情感分析,同时对在http://www.textmap.com/sentiment发布的日常情感分析提出意见和建议。在第六部分,我们将在系统的证明论文中给出几个我们分析的例子。 在这篇论文中,我们将讨论关于情感分析系统的几个部分,包括:
*情感字典的算法结构——我们的情感索引精密地依赖于对有积极和消极含义的形容词的参考频率的追踪。我们找到一种方法,将有积极和消极意义词的候选列表扩展为在词汇网络中建立的基于情感分析的同义词和反义词的全面的情感词典。我们用情感的交替次数来决定候选词的受欢迎程度和消除含义模糊的词。我们将呈现精密的算法和执行结果。
*情感索引规划——构造能够反映并列情感词意义的数据索引是很重要和微妙的。我们提出了一种用情感词和实体的并列以及以频率权重来衡量的用幸福水平来给实体情感打分的插入的技术。
*意义的评估——我们提供了情感评估合理性的证据,此情感评估与现实世界的几个级别的时间相联系,这些事件包括(1)专业篮球和篮球比赛的结果,(2)股票市场目录的表现,和(3)季节的影响。乐观统计表明我们的分析者能够准确地测量出公共情感。我们还提出轶事一样的证据用来证明我们的分析。 最后,我们讨论可能的应用和我们工作的意义。 2.相关工作
自然语言的情感分析是一个正在成长的大规模领域。特别是关于我们任务先前的相关工作
自然分配给我们这两个小组。第一个小组是关于自动收集情感字典的技术。第二个是关于整个文档进行情感分析(总体上或者部分的)的系统的技术。 2.1 具有决定性的语义方向的词
Hatzivassilogou和McKeown假设词性相同的形容词可以用“和”来区分,而词性相反的用“但是”来区分。从小的种子列表开始,这种信息过去常常用来将形容词分为两个集合,比如最大的约束条件是满意的。
Wiebe像评价渐变的等级一样来评估形容词的词性。数据模型将形容词根
据其语气和语义方向将其分成几个集合。这种渐变的形容词的使用对主观性的决定起着重要的作用。数据模型用来预测形容词的渐变性。 Kim和Hovy评价观点持有者(实体),此观点持有者通过扩展种子列表在词汇网络中产生积极和消极词的列表。他们假设一个词的同义词(反义词)有相同的(相反的)词性。一个词的同义词所占的比例属于用于测量其词性强弱的词性列表,而另一些则被认为是中立的或者词义不清的入口。当主题附近包括的词在这个句子中时就会产生最好的结果。 2.2情感分析系统
已经建立起来的几个系统用于在产品的综述中对观点进行量化。Pang、Lee和Vaithyanathan执行对电影综述中的情感分析。他们的结果表明机器学习技术比简单技术方法效果更好。对于词性级别的正确性他们大概能达到83%。在第[11]部分,他们确定了在一篇综述中哪些句子具有用于提高情感分析的主观因素。在这个系统中我们不做区别,因为我们认为事实和观点都对关于新闻实体的公共情感有影响。
自人们都不同意整体文档情感以后,Nasukawa和Yi[12]认为局部情感比整体文档情感更加据有说服力。他们集中于辨别这些情感表达的方向和决定这些情感的目标。浅显的语法分析辨别目标和情感表达;后者用目标来评估并与目标相联系。我们的系统也进行局部情感分析,但是是为了加快和变形:在相同的句子中,我们将情感归于所有并列的实体而不是某一特殊的目标。在[13]部分里,他们用特征词追踪器来进行追随。在给定的项目中,特征追踪器辨认局部或者是项目的属性。比如电池和摄像头是照相机的特征。 3.情感词典的产生
情感分析取决于在语料库和方向上我们对一个情感词的辨别能力。我们为七个情感规模(常规、健康、犯罪、运动、商业、政治、媒体)依次进行定义。我们选择这些规模是基于我们用对意见和情感的区别标准来区别新闻规模的辨认度。扩大情感词典的数量可以使更多的精力放在分析特殊目标的现象上,但是在人类屏幕上潜在着大量的消耗。为了避免这个,我们发明了一种将小规模的种子情感词扩展为充分的词典的算法。 3.1贯穿于路径分析的词典算法
在第二部分详细介绍过的先前的系统通过电脑词典-词汇网络[14]对同义词的递归查询的办法已经将种子列表扩展为词典.。这种方法的缺陷在于同义词会随着距离而一直减弱。第一组数据将会显示通过词汇网络同义词的链接四种方法如何从好变成坏的。
为了抵消这些问题,情感词的产生算法扩展了一系列以同义词和反义词查询的种子词,如下:
*我们将一个词性(积极或者消极)与每个词和查询的同义词和反义词两方面同时联系在一起,就像同义词[15,16]从它父母那里继承词性,反之反义词继承相反的词性。
*一条路径的意义随着它在种子词中深度和广度的作用而减弱,就像[9,17,18]所描述的。词W的意义在深度d上以指数(W)=1/cd(c是常数,c>1)形式减少,最后每个词的分数是整天所接收路径上所有分数的综合。
数据1:在三个跳级上由坏变好的四种方法 规格 商业 犯罪 健康 媒体 政治 运动 种子 积极 11 12 12 16 14 13 消极 12 18 16 10 11 7 算法 积极 167 337 532 310 327 180 消极 167 337 532 310 327 180 手动规模 积极 223 51 108 295 216 106 消极 180 224 349 133 236 53 表1:每个形容词的情感词典的构成
*在积极和消极词之间转换的路径像是伪造的。因此我们的算法运行两次迭代。第一次计算每个词的先前分数,就像上面所描述的那样对每个先前的词进行评估。当计算明显的情感交替和跳跃时,第二次迭代重新列举路径。跳跃越少,这条路径越值得信任。最后的分数只考虑哪些跳跃值在我们预设的关口之内的路径。
*词汇网络用含义对同义词/反义词进行排序,先采用在列表中更加普通的含义。既然这些指定的分数服从正态分布,他们自然转换为z-分数。大多数的词位于中间模糊的分配地带,这意味着他们不能被以积极和消极的范围连续的分开。一些词义模糊的词被丢弃,只取既不极端也不词义扭曲的词的前X%。
表1展示了算法产生和形容词每个阶级的情感词典的构成
3.2性能评估
我们通过两种不同的方式评估了我们的情感词库的生成。第一种方法我们称为un-测试。前缀“un-”和“im-”通常是负面情感的术语。因此形式为X和unX的术语应当出现在情感频谱上不同的两端,就像“能胜任的”和“不能胜任的”。表格2记录了部分拥有同极性的配对(正面术语和负面术语)。因此这个比率越低越好。我们的结果显示,以查全率为代价的精确度提高需要我们: (1)限制通道情绪交替的数量,和
(2)删除少数对义性词语正在增长的部分。
表格2:为使词库扩展,对精确度和查全率的权衡作为拉动阈值(阈值:一个领域或一个系统的界限称为阈,其数值称为阈值)和算法的少数对义性词语的一部分。
表格3:算法生成和人为收录的词库的比较。
我们还比较了我们的情感词典和那些由Wiebe[19]获得的词汇,就像表格3的报告。我们算法生成的词库和手动收录的词库高度一致。进一步的,我们发现我们算法生成的极性经常是健全的,即使它们来源不同[19]。比如,负面情感词库PolMauto包含像“bullish(看涨的)”,“agile(敏捷的)”和“compassionate(富于同情心的)”等明确的积极性词汇,而正面情感词库PolPman包含像是“strenuous(紧张的)”,“uneventful(平凡的)”和“adamant(固执的)”等词汇。
4.对情感数据的解释和评分
我们使用我们的情感词库来标记所有的情感词汇和我们语料库(语料库:语料
库中存放的是在语言的实际使用中真实出现过的语言材料;语料库是以电子计算机为载体承载语言知识的基础资源;真实语料需要经过加工(分析和处理),才能成为有用的资源)中的相关存在。每当情感词
汇前面有一个否定修饰时,我们扭转该词的极性。当一个词前有修饰语时,我们增加/减少了它的极性强度。因此,不好=-1;好=+1;非常好=+2。
我们的情感分析其忽略了那些当被检测到是另一篇的复制品时的文章[1]。这可以防止在多家报刊上同时发表的新闻文章比其他的文章在情感上有更大的影响力。因为我们的系统每天都处理大量的文本,所以速度考量阻止了我们去进行仔细的剖析。取而代之的是,我们使用实体的同现,在同一个句子里的情感词汇意味着情感与实体相关联。这并不总是准确的,特别是在复杂的句子里。尽管如此,我们处理的文本的量还是能够使我们生成精确的情感评分。
我们需要几个步骤来聚合不同名字的实体引用。通过使用代词分辨技术,与其说我们能够确定更多的实体/情感同现,不如说能够确定其在原始新闻文本里的存在。进一步的,Lydia的共同参考集识别系统[4]将交替参考资料联系起来,比如George W.Bush和George Bush都是在以George W.Bush为眉头词的单个同义词组内。这巩固了属于一个单一实体的情感。 4.1极性评分
(极性:现代心理学认为情感具有二极性,冯特\情感三维度说\就说明情感有愉快与不愉快,兴奋与压抑,紧张与松弛三对不同性质)
表格4:维数关联使用月度数据。
我们使用未加工的情感评分来追踪两个随时间的过去而变化的趋势: ·极性:与情感相关联的实体是积极的还是消极的? ·主观性:实体获得了多少(任何极性的)情感?
主观性表明情感出现频率的比例,而极性则表明积极的情感参照占所有的情感参照的百分比。
我们首先关注极性。我们使用全部时间区间内的所有实体的情感数据来评估世界极性:
积极性情感参照
世界极性= 总体情感参照
我们只使用那一天的情感数据来评估实体极性: 当天的积极性情感参照
实体极性= 当天的总体情感参照
表格4表明了各种情感指数之间的相关系数。一般来说,成对指数正相关,但相关性不是很强烈。这是一件好事,因为这显示了每个分指数测量不同的东西。总体指数是所有指数的集合,因此体指数都呈正相关。 4.2主观性评分
主观性的时间序列反映了与一个实体相关联的情感数量,无论是积极还是消极的情绪。一段时间内阅读所有的新闻文本以及计算其中的情感给了我们一个世界平均主观性水平的分量。我们使用所有时间区间内的所有实体的情感数据来评估世界主观性:
总体情感参照
世界主观性= 总体参照
我们只用当天的情感数据来评估实体主观性:
当天的总体情感参照 实体主观性=
当天的总体参照
5.新闻VS.博客
关于博客和报纸的争论以及被讨论的人群都相当的不同[2]。表格5在2006年7月分别地列出了在报纸和博客上评价最积极的人。美国投资者沃伦·巴菲特