应用科技
基于维基百科的双语语料挖掘技术研究
孟桂国
(苏州大学江苏省计算机信息处理技术重点实验室,江苏苏州
215006)
睛要】双语句段是机嚣翻译的重要资源,目前句段级语料库数量有限且集中在特定领域,很难适应真实的应用。本文介绍了利用维基百
科上存在的海量多语言文本资源,采用乙玎u,命名规则、HTML网页结构相似性、词语对齐和最大熵分类器技术。研究了一个双语语料自
动挖掘方法。实验结果表明挖掘到的双语平行或可比较句段的召回率为8b%,准确率为99%o
【关键圃维基百科;双语句段;平行或可}匕较网页
双语语f-4库E经成为机器翻译、翻译知识获取等研究不可缺少的重要资源。互联网的普及和迅猛发展,越来越多的网站成为双语或多语网站,且具有很好的时效性和覆盖性,是多语种语料库信息源。维基百科是—个多语言的、动态的、可自由访问、编辑、复制、修改的网络百科全书。如何从中挖掘双语句段为解决双语语料库的获取和实用化具有重要的意义。本文目的就是研究基于维基百科的双语语料挖掘,提出自动获取的方法。首先介绍步骤和模块;其次详细描述各模块的实现方法;最后给出总结和下—步工作。
1相关工作
基于Web的双语平行资源自动获取的研究,目前大多集中在翻译
词典获取方面。如加拿大蒙特利尔大学聂建云开发的系统PTMiner.美国马里兰大学Resnik开发的系统STRAND和基于内容实现方法的BITS系统等。大部分获取双语网页的规模小,得到的双语句对的互翻译效果也不佳,没有真正用于建立大规模双语资源库。本文采用基于DOM树和HTML结构一致性、词语对齐和最大熵分类器技术:其步骤:1)采集维基百科上中文网页URL:2)基于URL命名规则从获取的中文网页URL中,抽取配对的英文网页URL:3)利用DOM树和HTML结构一致性,从配对的中英文网页中挖掘平行或可比较句段。
1.1中英文双语网页I琅I获取
维基百科的中英文网站URL命名有一定的规律。如中文网页
URL
http://zh.wikipedia.org/zh—cn/南京,其中http://zh.
wikipedia.org/zh—cn/为pathnarne,南京为basename:配对的英文网页URLhttp://en.wikipedia.org/wiki/Nanjing,其中http://en.wikipedia.org/wiki/为pathname,Nanjing为basename,pathname是一致,basename中文网页URL是汉字,配对的英文网页URL是该汉字的汉语拼音全拼。利用这个规则获取配对的中英文网页URL。
12中英文双语平行或可比较网页确认
采用网页DOM树、词语对齐特征,把双语网页HTML结构相似
性作为—个有力的特征,从双语句段的内容上去衡量一对双语平行网页中那些句段是真正互翻译的,过滤掉不平行或不可比较的网页,从而保证句段的互为翻译性。
121网页DOM树
抽取出网页的HTML朽记,组肛个标记序歹4,构建_威DOM树o
DOM树是研究网页布局结构的主要依据,更好的对网页进行分析研
究、准确地描述元素的相对位置关系,找中英文网页的最大相同子树,
再根据树的路径得到相对应的中英文信息。
122词语对齐特征
假如某一对中英文网页不是~一对应互为翻译的,但在HTML结构、内容互翻译词上都有很大的相似性,称之为可比较网页。引入词语对齐特征来区分平行和可比较网页,采用基于词典的方法:1)将每个
中文词cj链接到具有最大中英互译中翻译概率的英文词ei上,即选择
max惦(ei/cc),P(cj/ei))的英文词ei;2)对应的英文词ei在英文句段中存在多个中文词cj,在添加一条c、e链接时,使得当前存在的交
叉连接最少;>经过两遍添加链接后就得到了一组词语对齐。
2双语平行或可比较句段挖掘
从中英文平行或可比较网页句段中抽取~些特征,送入分类器进
万方数据
行分类,判断当前句段是否平行或可比较。分类将减小因网页内容不完全一致、HTML结构混乱带来的抽取难度,最大限度地挖掘网页中的句段资源。
2.1生成双语句段集合
采用DOM树来描述网页,然后对齐两棵DOM树从而得到对应的平行或可比较句段,需做到文本块对齐。先将每一个网页解析成一个由“HTML开始标记+句段+HTML结束标记”结构组成的句段序列,去掉相应的HTML标记后,得到中英文句段序列。这两者序间对照关系是
非常严格的、肯定存在着互为翻译的关系。最后计算每一对句段为平行
和可比较的概率,依概率大小进行分类,从而得到句段级双语语料库。
22最大熵分类器
最大熵分类器是要找到既满足所有已知的事实,且不受任何未知因素影响的概率分布。特点是不要求具有条件独立的特征,可以任意地
加入对最终分类有用的特征,也能够容易地对多分类问题进行建模,给各个类别输出—个相对客观的概率值,便于后续推理步骤使用。
3实验结果与分析
3.1配时的中英文网页ImI荻取
从维基百科中找到城市列表“中国城市列表”,根据pathnarne和
Parser解析定义在<a>超链接</a>之内的所有URL超链接,得到各个城市的中文网页URLo再利用得到的所有中文网页URL,运用HTMLParser解析定义在“其他语言<liclass=interwiki—en><ati—tie=”城市名”href=”httpJ/en.wikipedia.org/wiki/城市名”>Eng—lish</a><月.>”的所有配对英文网页URLo
32双语平行或可比较句段的挖掘结果
从维基百科挖掘中国城市列表,县级以上共计3229个,挖掘到的双语语句段2851个,含有中英文双语平行和可比较平行的句段2825个,取得了88%的召回率与99%准确率。实验结果贡献来源:一是采用URL命名规则从过滤后的中文网页URL中解析得到配对的英文网页URL;二是采用网页结构特征、词语对齐和最大熵分类器的技术。
4总结
本文研究的双语语料自动获取方法融合现有方法的优点并进行改进,取得了较好的效果。利用URL命名相似性获取中英文配对网页URL,采用网页HTML结构一致性、词语对齐和最大熵分类器的技术进行挖掘,有效地提高了挖掘质量。下—步将进一步研究挖掘的中英文句段,去除重复句对、将平行和可比较句段分开,使其更加有效的运用
于获职大规模双语语料。
【参考文献】
f1】Jmng
Chen
and
Jian—Yun
Nie.Automaticcons臼Ⅵction
ofP3豫:uel
e“g—
lish—cbJnec,ecorpusforCI'O《一languageinformadonretrieval[A].In:Proceedingsof
the
Intermtion.alConference
on
ChineseLanguage
Computing[q.San
Francis—
co。pages2.1口28,2000.121
PhilipRemik
Parallelc,tl:ands:apreliminary,investigation
into
miningtheweb
forbilingualtext[A].In‘Proceeding
oftheTbirdConferenceofthe^黛ocia60nfor
Machine
Traralaoon[C].America.page‘72口82,1998.
11梵H∞“)GYll咖255
。basename的规则,过滤掉URL结构不一致的网页,运用HTML