关于新闻和微博的大规模情感分析(2)

2018-11-22 10:55

和F-1赛车手司机费尔南多·阿隆索被认为是在博客和报纸上都反响很积极的人。其他的运动员（拉斐尔·纳达尔，莎拉波娃）也在博客的正面影响人物排名前列。因为新闻和博客的百分率的评级没有直接的可比性，因此我们在这儿按照纯粹的积极和消极情感来报道我们的结果。

表格5：在新闻（左）和博客（右）影响最积极的人物。

表格6：在新闻（左）和博客（右）中影响最消极的人物。

表格6列出了在报纸和博客上影响最消极出现的人。国际的（斯洛博丹·米洛舍维奇，扎卡里亚斯·穆萨维）和国内的犯罪人物（约翰·A·穆罕默德，莱昂内尔·泰特，乔治·瑞恩）同时在博客和报纸上被认为是失败者。愤怒的球迷们的博客透露出他们对某些体育明星（萨米·索萨，罗艾萨，瑞奇·威廉姆斯）的极度不满。

最有趣的是某些有争议的美国政治人物的截然不同的命运。一些（如哈里特·迈尔斯，阿尔·夏普顿）被认为在报纸上影响负面而在博客上有正面影响，而其他人（如查尔斯·舒默，爱德华·肯尼迪）则被认为只在博客上有负面影响。这些显然反映了博客作者们、或者主流媒体的政治偏见。 6.总结

有许多有趣的方向我们可以去探索。我们对如何让情感随着人群、新闻资源或者地理位置改变非常感兴趣。通过扩大我们对新闻实体的空间分析[1]而得到的情感地图（情感是一种关于个人感情状态的一种复杂的心理生理经历,是内在生理机制与外在环境刺

激共同作用的结果。情感具有时间性、空间性、社会性，是影响传播活动的关键因素），我们可以对

给定的实体进行有利的地理区或不良的意见的确定。我们也在研究关于情感指数预测未来流行趋势或市场走势变化的程度的分析。参考文献：

[1] Mehler, A., Bao, Y., Li, X., Wang, Y., Skiena, S.:Spatial analysis of news sources. IEEE Trans.Visualization and Computer Graphics 12 (2006)765–772

[2] Lloyd, L., Kaulgud, P., Skiena, S.: Newspapers vs. blogs: Who gets the scoop? In: Computational Approaches to Analyzing Weblogs (AAAI-CAAW 2006). Volume AAAI Press, Technical Report SS-06-03.(2006) 117–124

[3] Lloyd, L., Kechagias, D., Skiena, S.: Lydia: A system for large-scale news analysis. In: String Processing and Information Retrieval (SPIRE 2005). Volume Lecture Notes in Computer Science, 3772. (2005) 161–166

[4] Lloyd, L., Mehler, A., Skiena., S.: Identifying co-referential names across large corpra. In: Proc.Combinatorial Pattern Matching (CPM 2006). VolumeLecture Notes in Computer Science, 4009. (2006)12–23

[5] Kil, J., Lloyd, L., Skiena, S.: Question answering with lydia. Proc. 14th Text Retrieval Conference (TREC2005) (2005)

[6] Godbole, N., Srinivasaiah, M., Skiena, S.: Large-scale sentiment analysis for news and blogs (demonstration). In: Proc. Int. Conf. Weblogs and Social Media (ICWSM 07). (2007)

[7]Hatzivassiloglou, V., McKeown, K.R.: Predicting the semantic orientation of adjectives.In:Proc.8th Conf.on European chapter of the Association for Computational Linguistics, Morristown, NJ, USA,Association for Computational Linguistics (1997)174–181

[8]Wiebe, J.: Learning subjective adjectives from corpora. In:Proc.17th Nat.Conf.on Artificial Intelligence an 12th Conf. on Innovative Applications of Arti?cial Intelligence, AAAI Press / The MIT Press (2000)735–740

[9] Kim, S.M., Hovy, E.: Determining the sentiment of opinions. In: Proceedings of the Coling Conference.(2004)

[10] Pang, B., Lee, L., Vaithyanathan, S.: Thumbs up?Sentiment classification using machine learning techniques. In: Proceedings of the 2002 Conference on Empirical Methods in Natural Language Processing (EMNLP). (2002) 79–86

[11] Pang, B., Lee, L.: A sentimental education: Sentiment analysis using subjectivity summarization based on minimum cuts. In: Proceedings of the ACL. (2004)271–278

[12] Nasukawa, T., Yi, J.: Sentiment analysis: Capturing Second International Conferences on Knowledge Capture. (2003) 70–77

[13] J. Yi, T. Nasukawa, R.B., Niblack, W.: Sentiment analyzer: Extracting sentiments about a given topic using natural language processing techniques. In: 3rd IEEE Conf. on Data Mining (ICDM’03).

(2003)423–434

[14] Miller, G.A.: Wordnet: A lexical database. Communications of the ACM 38(11) (1995) 39–41

[15] Andreevskaia, A., Bergler, S.: Mining wordnet for a fuzzy sentiment: Sentiment tag extraction from wordnet glosses. In: EACL. (2006)

[16] Esuli, A., Sabastiani, F.: Determining term subjectivity and term orientation for opinion mining. In: EACL.(2006)

[17] Ide, N.: Making senses: Bootstrapping sense-tagged lists of semantically-related words. In: CICLING.(2006)

[18] Wiebe, J., Mihalcea, R.: Word sense and subjectivity. In: ACL. (2006)

[19] Wiebe, J.: Learning subjective adjectives from corpora.In: AAAI/IAAI. (2000) 735–740

[20]有道翻译以及互动百科提供的资料

[21]论文《主观性文本的情感极性分析研究》作者：杜德斌（2009） [22]《文本情感分析综述》作者：赵妍妍+，秦兵，刘挺

课程及作业心得（李文琦 201002410110）：

1、作业分工、遇到的困难，知识点等等。

（1）分工：1至3.1节：刘晓磊；3.2节至最后：李文琦

（2）遇到的困难：对许多文章内用词词义不理解；翻译出来的句子读不通顺，理解有困难；想查找的知识点在网络上搜不到，手头也没有参考书籍等等。（3）知识点：情感分析词库的产生、算法及评估，情感极性和主观性，对博客和报纸的情感极性分析的比较。

2、谈谈你们对“检索无处不在”的理解。

检索，早已渗透到了我们生活的边边角角，我们的学业、工作甚至普通娱乐都需要有检索的参与。最简单的例子，完成这篇文章的翻译就需要用到检索来查找知识点，否则单靠我们个人很难将翻译完成。下载一首歌曲，需要检索；出门旅游查询地点以及火车票，需要检索；寻找毕业论文资料，需要检索??

检索为我们的生活提供了极大的便利，让我们得以在最短时间内以最高效率掌握所需的相关信息，避免了重复研究和走弯路。我们有理由相信，在科技发展的推动下，由于检索在日常生活中所占分量越来越重，在不久的将来，检索的范围将会通过万维网从个人电脑、手机发展到各种各样的数字设备中，让我们真正感受到身处于信息时代的便利。我个人来说，是深切盼望着那一日的到来的。

课程及作业心得：（刘晓磊201002410129） 1、作业分工、遇到的困难，知识点等

初看到作业形式，便决定了要做课业材料翻译，并不是因为它只需简单的翻译不用过多的查阅资料和进行建设性的思考，而是想通过材料翻译进一步了解最新的关于信息检索的一些知识和学习一下别人从哪些方向上进行研究和拓展的。经商量和仔细查看，我（刘晓磊）和李文琦从众多的资料里面选择了时下最流行的关于报纸和微博的情感分析的论文，通过翻译这篇论文，一是想学习影响

范围甚大的报纸和微博情感分析的相关知识，二是想在他们的基础上看看能不能在一定程度上于信息检索方面对我们有所启发。怀着这样的目标，我们进行了翻译工作。我负责前两页的翻译，搭档负责后两页，然后我们再进行整合修改，尽量做到“通达雅”，然后一起通过图书馆、报刊、网络等方式查阅相关资料。

在整个翻译过程中，遇到的问题主要是一些专有名词的翻译，有些单词知其意，但是在信息检索这个领域却有着属于它的专有意义，比如seed sentiment 。再者就是相关资料的查找，在国内的网站中很多的相关论文找不到，对于想进一步进行了解造成了极大的障碍。

这篇论文所涉及的主要知识点分布在情感词库的建立和发展，情感词的算法，通过哪些指标来评估算法的优越性，如何划分情感词的积极性和消极性，如何通过情感词来分析微博和新闻。

2.对于“检索无处不在”的理解：

正是因为信息的无处不在导致了检索的无处不在，细微到生活中的每一件小事，不管是动态的消息还是静态的数据等都是信息，而我们想要知道这些就必须经过一定的检索，检索是一个发现认识的过程，它建立在一定的流程，算法基础上，对事物进行探索然后以一定的方式反映给需求者。

理论来源于实践，现在我们所学习的检索这门课程就是日常生活中的经验和事例抽象出来的理论，如要知道未来几天的天气预报，我们会通过各种媒介进行检索，其结果通常是按照准确度和实效性进行排列的，这就是整个信息检索，而这种信息检索的活动充斥着我们的的生活，不论工作、学习还是生活，处处离不开信息，离不开检索。应对于现在的信息爆炸，检索的方式也更加多样和便利化，尽量做到人性化，提高其准确性。我们有理由相信现在的信息检索技术能信息世界中为我们更好的服务。

共2页:

关于新闻和微博的大规模情感分析(2).doc 将本文的Word文档下载到电脑下载失败或者文档不完整，请联系客服人员解决！

下载这篇word文档