石家庄经济学院本科生毕业论文
5 测试
5.1 测试环境和测试方案
(1)测试环境: 实验平台:Eclipse
操作平台:Windows7 32位操作系统
CPU: Intel(R) Core(TM)2 Duo CPU T5670@1.80GHZ 内存: 2.00GB 硬盘: 120GB (2)测试方案:
方案一:本文按照3种常见的歧义类型,分别对常见的三种歧义分词采用正向最大正向匹配,最大逆向匹配,和双向匹配算法来进行切分,并对切分结果进行对比分析:
第一类歧义(中文自身的二义性引起的歧义):“乒乓球拍卖完了”; 第二类歧义(由于分词算法引起的歧义):“这时候最热闹的 ”; 第三类歧义(由于未登陆词引起的歧义):“淘宝网上竟然能搜索到”;
方案二:为了充分的对中文分词系统进行测试,本文分别摘取了计算机、科学和计算机三个方向的文章来进行测试。
方案三:为了测试本系统的分词词典机制,本文提出了方案三,方案三是将本系统与基于整词二分法的分词系统进行了测试对比,在硬件环境和分词词典等都相同的情况下测试其运行速度和空间消耗。
5.2 中文分词系统评价标准
中文分词很难有统一的评价标准,因为现在还很难定义词的界限,因此我们采用以下两个标准来评判分词系统的性能:
标准一:分词精度是指切分的正确率。它是自动分词系统的一个重要技术指标。分词的精度的计算机公式是:
分词的精度 = 正确切分成的词语数/切分出的词语数*100%
标准二:、分词速度,分词速度是指单位时间内所处理的汉字个数。在分词正确率基本满足要求的情况下,切分速度是另一个很重要的指标,本系统切分速度采用的单位是毫秒。
5.3 实验结果和结论
对于方案一中的实验,因为分词时间较短,因此我们只采用评判其是否正确来进行评测。表显示了其分词的结果:
- 24 -
石家庄经济学院本科生毕业论文
歧义类别 第一类歧义 第二类歧义 第三类歧义 表5-1 对于方案一的切分结果对比分析 句子切分 是否正确 原句子 乒乓球拍卖完了 MM 乒乓球/拍卖/完了 正确 RMM 乒乓球拍/卖完/了/ 正确 双MM 乒乓球拍/卖完/了/ 正确 原句子 这时候最热闹的 MM 这时候/最热/闹/的 错误 RMM 这时候/最/热闹/的/ 正确 双MM 这时候/最/热闹/的/ 正确 原句子 淘宝网上竟然能搜索到 MM 淘宝网/上/竟然/能/搜索/到 正确 RMM 错误 淘宝/网上/竟然/能/搜索/到 双MM 淘宝网/上/竟然/能/搜索/到 正确 从上表的切分对比我们看出,由于中文歧义的特殊性,单纯的使用MM或RMM并不能很好的解决歧义的问题,可用双向匹配来说就能够在一定范围内解决歧义问题。
按照第二种实验方案进行实验,得到了以下的结果,如表5-2。
表5-2 对于方案二的测试结果 序号 文章类型 文章分词精度 时间(ms) 大小 1 计算机 29k 97.25% 229ms 2 体育 18k 93.26% 146ms 3 科学 22k 93.57% 198ms 按照方案三,本文从时间和空间上测试本系统采用的新的分词机制,首先我们先给出理
论上的分析:对于基于词典的分词算法,给定文档D,其长度为N,给定词典Z,字典的词条数目为T,在词典中查找某一字串的复杂度为f(T),在本文使用的是二分查找来在词典内查找给的的词语,则查找单个词语的时间复杂度是O(Log2T)并且使用双向匹配算法分词需要进行O(N)次的词典查找,故其时间复杂度为O(N*Log2T),设计一个好的分词词典机制就是要降低T和N的大小,因为本文是将字数相同的词语放在一起组织,因此与整词二分法的时间相比,T小了很多,故用本算法实现的系统理论上应比基于整词二分词典机制的快。在空间上整词二分法的空间复杂度是O(N),而基于子字典的空间复杂度也是O(N+n),其中N指的是词典的单词数目,n指的是我们在组织子字典的时候产生的额外存储指针的开销,因此理论上基于子字典的词典机制所用空间会比基于整词二分的词典机制较大些。
下面本文将本系统和经典的基于整词二分法词典机制进行了对比。并且都使用本文中采用的最大双向匹配算法分别对一段文本进行了切分,比较其分词速度。两个分词程序系统都使用了java实现,运行环境一致,保证了实验的公平性。
对两个分词词典机制,我们任取一段文本(大小4M字节左右)进行切分,测定其分词速度和词典的空间。实验进行了多次,取平均值。实验结果如表5-3所示。
- 25 -
石家庄经济学院本科生毕业论文
表5-3方案三的测试结果 词典机制 词典空间(字节) 所用时间(单位ms) 整词二分 2237344 23450 子词典(本文词典) 3547300 5390 由上表可以表明,两种词典机制的词典空间大小为本文词典>整词二分的词典.
本文词典比整词二分词典的空间大了大概1.5M左右,对于现代计算机来说,1.5M的内存
空间对系统运行可以忽略不计。而时间上本分词系统的词典机制比整词二分法时间快了很多。这与我们理论上的判断结果一致。 通过上文的三个测试方案,单纯的最大正向匹配和最大逆向匹配并不能很好的解决歧义的问题,在我们使用双向匹配的分词算法后,我们能够很好的吸取最大正向匹配和最大逆向匹配的优点,对于歧义的解决有了一定的提高,对于本中文分词系统,用户可以自己选择建立新的词,然后自动的加入到分词系统去,从而提高了分词的准确率。通过方案三与传统的分词词典机制即整词二分法的对比,从而证明了在现代这个时间越来越珍贵的时代,本系统有着巨大的优势。
中文语言的复杂性,给中文分词系统带来了很大的困难,任何一个分词系统都不能够百分之百的解决分词,本系统通过对分词词典机制的探索和对分词算法的改进使得本系统有了较高的效率,实验结果表明,本系统完成了中文分词系统的功能。
- 26 -
石家庄经济学院本科生毕业论文
结论
在中文信息处理中,中文分词一直是基础的研究课题,可是这也是中文信息处理的关键,处理不好中文分词,中文信息处理就无法突破,其研究的好坏对于以中文分词的基础的课题比如语音识别,在线翻译等课题有着决定作用。但是因为中文分词的复杂性,中文分词研究了很长时间至今还没有非常完美的分词系统问世。本文针对现有的分词系统的优缺点,及时准确的掌握分词系统的发展现状和工作原理,并在分析分析系统的基础上自主实现一个初步的分词系统,通过实践来发现问题,优化系统。在经典的分词算法的基础上进行了改进,通过良好的数据存储与组织方式来实现一个比较快速,词典比较全面,分词结果比较精确的分词系统。本文的主要工作如下:
(1)系统的介绍了中文分词的研究背景、研究意义,分析了中文分词的现状,对于中文分词的两大基本问题进行了阐述。
(2)本文对于中文分词的经典算法,比如基于词典的中文分词算法,基于统计的分词算法,基于理解的分词算法等进行了详细的讲解,并总结了其优缺点。另外,本文还对现存的词典机制进行了阐述,再此基础上我提出了自己的一种词典机制,并对其进行了详细的讲解。 (3)在前文的基础上,我实现了一个中文分词系统,本系统是基于词典的中文分词系统,词典机制采用的是子字典机制,分词算法是在最大正向匹配和最大逆向匹配的基础上实现的双向匹配算法。
(4)本文还对实现的中文分词系统进行了测试,实验表明,本中文分词系统能够很好的解决中文分词的问题,分词结果基本上正确。
由于时间有限,水平有限,词典等的来源等问题,本系统无论是精确度还是分词效率上都有待提高,另外本系统虽说采用了双向匹配的分词算法,这能够消解一部分的歧义,但是并没有真正的提出歧义的消除算法,因此接下来的工作展望如下: (1)尽可能的收集各种专业词典,从而提高本系统词汇量,从根本上进一步提高分词精确度; (2)进一步学习各种消除歧义的算法,尽可能的提出自己的消除歧义算法,并对本系统进行实现,提高分词的精确度;
(3)中文分词只是中文信息处理的基础,在完善系统后,本文作者打算学习新的知识,从而将中文分词学以致用,间接推动中文分词的发展。
- 27 -
石家庄经济学院本科生毕业论文
致 谢
在这里衷心地感谢孟永刚老师及同组的同学在毕业设计过程中给予我的帮助和支持。孟老师给我提出了许多合理性的建议,在孟老师的帮助下,我解决了一个个自己难以解决的问题。这对我能够顺利的完成本次设计是至关重要的。老师认真负责的工作态度、严谨的治学风格,使我深受启发,我会谨记孟老师的谆谆教导,这对我今后的工作会有很大的帮助。
同时,我也感谢计算机教研室的其他老师,他们同样也帮助我解决了不少毕业设计中的疑难问题,提出了宝贵的建议。
在此次设计过程中,考验了我们大学所学知识的综合应用以及在此基础上付诸实践,将理论与实践有机的结合起来,使自己的对知识的运用水平得以提高,在与同学的共同设计中,更是深刻体会到了团队精神的重要性,他们同样给予了我很多帮助。在此我也感谢在设计中对我帮助、支持和鼓励的同学们。
最后,在此对曾经帮助过我的朋友、老师表示致谢。也衷心的感谢在百忙之中评阅论文和参加答辩的各位专家、教授!
- 28 -
石家庄经济学院本科生毕业论文
参考文献
[1] 张春霞,郝天永.汉语自动分词的研究现状与困难[J].系统仿真学报.2005.(17).138-147. [2] 百度百科 中文分词[EB/OL].http://baike.http://www.wodefanwen.com//view/19109.htm
[3] 余占秋.中文分词技术及其应用初探[J].电脑知识与技术:认证考试.2004.( 11).81-83. [4] 孙茂松,邹嘉彦.汉语自动分词研究评述[J].当代语言学.
[5] _Amo.Jry,ZZMMSEG 中文分词算法[EB/OL]. http://archive.cnblogs.com/a/1795908/ [6] 龙树全,赵正文,唐华.中文分词算法概述[A].电脑知识与技术.2009.5.
[7] 李庆虎,陈玉健,孙家广. 一种中文分词词典新机制——双字哈希机制[A].中文信息学报 ,2003(17),13-18.
[8]丁承,邵志清.基于字表的中文搜索引擎分词系统的设计与实现[J]计算机工程.2001,27(2)191-193.
[9] 马玉春,宋涛瀚.web中中文文本分词技术研究[J].计算机应用,2004,24(4):134-136.
[10]-Jing Wang, Wen Liu, Yong Qin, A Search-based Chinese Word Segmentation Method[A], Poster Paper 2007 1129-1130.
[11] 黄昌宁,赵海中文分词十年回顾[J] 中文信息学报2007,21(3),8-18.
- 29 -