基于维基百科的双语语料挖掘技术研究

2021-04-06 06:01

应用科技

基于维基百科的双语语料挖掘技术研究

孟桂国

（苏州大学江苏省计算机信息处理技术重点实验室，江苏苏州

２１５００６）

睛要】双语句段是机嚣翻译的重要资源，目前句段级语料库数量有限且集中在特定领域，很难适应真实的应用。本文介绍了利用维基百

科上存在的海量多语言文本资源，采用乙玎ｕ，命名规则、ＨＴＭＬ网页结构相似性、词语对齐和最大熵分类器技术。研究了一个双语语料自

动挖掘方法。实验结果表明挖掘到的双语平行或可比较句段的召回率为８ｂ％，准确率为９９％ｏ

【关键圃维基百科；双语句段；平行或可｝匕较网页

双语语ｆ－４库Ｅ经成为机器翻译、翻译知识获取等研究不可缺少的重要资源。互联网的普及和迅猛发展，越来越多的网站成为双语或多语网站，且具有很好的时效性和覆盖性，是多语种语料库信息源。维基百科是—个多语言的、动态的、可自由访问、编辑、复制、修改的网络百科全书。如何从中挖掘双语句段为解决双语语料库的获取和实用化具有重要的意义。本文目的就是研究基于维基百科的双语语料挖掘，提出自动获取的方法。首先介绍步骤和模块；其次详细描述各模块的实现方法；最后给出总结和下—步工作。

１相关工作

基于Ｗｅｂ的双语平行资源自动获取的研究，目前大多集中在翻译

词典获取方面。如加拿大蒙特利尔大学聂建云开发的系统ＰＴＭｉｎｅｒ．美国马里兰大学Ｒｅｓｎｉｋ开发的系统ＳＴＲＡＮＤ和基于内容实现方法的ＢＩＴＳ系统等。大部分获取双语网页的规模小，得到的双语句对的互翻译效果也不佳，没有真正用于建立大规模双语资源库。本文采用基于ＤＯＭ树和ＨＴＭＬ结构一致性、词语对齐和最大熵分类器技术：其步骤：１）采集维基百科上中文网页ＵＲＬ：２）基于ＵＲＬ命名规则从获取的中文网页ＵＲＬ中，抽取配对的英文网页ＵＲＬ：３）利用ＤＯＭ树和ＨＴＭＬ结构一致性，从配对的中英文网页中挖掘平行或可比较句段。

１．１中英文双语网页Ｉ琅Ｉ获取

维基百科的中英文网站ＵＲＬ命名有一定的规律。如中文网页

ＵＲＬ

ｈｔｔｐ：／／ｚｈ．ｗｉｋｉｐｅｄｉａ．ｏｒｇ／ｚｈ—ｃｎ／南京，其中ｈｔｔｐ：／／ｚｈ．

ｗｉｋｉｐｅｄｉａ．ｏｒｇ／ｚｈ—ｃｎ／为ｐａｔｈｎａｒｎｅ，南京为ｂａｓｅｎａｍｅ：配对的英文网页ＵＲＬｈｔｔｐ：／／ｅｎ．ｗｉｋｉｐｅｄｉａ．ｏｒｇ／ｗｉｋｉ／Ｎａｎｊｉｎｇ，其中ｈｔｔｐ：／／ｅｎ．ｗｉｋｉｐｅｄｉａ．ｏｒｇ／ｗｉｋｉ／为ｐａｔｈｎａｍｅ，Ｎａｎｊｉｎｇ为ｂａｓｅｎａｍｅ，ｐａｔｈｎａｍｅ是一致，ｂａｓｅｎａｍｅ中文网页ＵＲＬ是汉字，配对的英文网页ＵＲＬ是该汉字的汉语拼音全拼。利用这个规则获取配对的中英文网页ＵＲＬ。

１２中英文双语平行或可比较网页确认

采用网页ＤＯＭ树、词语对齐特征，把双语网页ＨＴＭＬ结构相似

性作为—个有力的特征，从双语句段的内容上去衡量一对双语平行网页中那些句段是真正互翻译的，过滤掉不平行或不可比较的网页，从而保证句段的互为翻译性。

１２１网页ＤＯＭ树

抽取出网页的ＨＴＭＬ朽记，组肛个标记序歹４，构建＿威ＤＯＭ树ｏ

ＤＯＭ树是研究网页布局结构的主要依据，更好的对网页进行分析研

究、准确地描述元素的相对位置关系，找中英文网页的最大相同子树，

再根据树的路径得到相对应的中英文信息。

１２２词语对齐特征

假如某一对中英文网页不是～一对应互为翻译的，但在ＨＴＭＬ结构、内容互翻译词上都有很大的相似性，称之为可比较网页。引入词语对齐特征来区分平行和可比较网页，采用基于词典的方法：１）将每个

中文词ｃｊ链接到具有最大中英互译中翻译概率的英文词ｅｉ上，即选择

ｍａｘ惦（ｅｉ／ｃｃ），Ｐ（ｃｊ／ｅｉ））的英文词ｅｉ；２）对应的英文词ｅｉ在英文句段中存在多个中文词ｃｊ，在添加一条ｃ、ｅ链接时，使得当前存在的交

叉连接最少；＞经过两遍添加链接后就得到了一组词语对齐。

２双语平行或可比较句段挖掘

从中英文平行或可比较网页句段中抽取～些特征，送入分类器进

万方数据

行分类，判断当前句段是否平行或可比较。分类将减小因网页内容不完全一致、ＨＴＭＬ结构混乱带来的抽取难度，最大限度地挖掘网页中的句段资源。

２．１生成双语句段集合

采用ＤＯＭ树来描述网页，然后对齐两棵ＤＯＭ树从而得到对应的平行或可比较句段，需做到文本块对齐。先将每一个网页解析成一个由“ＨＴＭＬ开始标记＋句段＋ＨＴＭＬ结束标记”结构组成的句段序列，去掉相应的ＨＴＭＬ标记后，得到中英文句段序列。这两者序间对照关系是

非常严格的、肯定存在着互为翻译的关系。最后计算每一对句段为平行

和可比较的概率，依概率大小进行分类，从而得到句段级双语语料库。

２２最大熵分类器

最大熵分类器是要找到既满足所有已知的事实，且不受任何未知因素影响的概率分布。特点是不要求具有条件独立的特征，可以任意地

加入对最终分类有用的特征，也能够容易地对多分类问题进行建模，给各个类别输出—个相对客观的概率值，便于后续推理步骤使用。

３实验结果与分析

３．１配时的中英文网页ＩｍＩ荻取

从维基百科中找到城市列表“中国城市列表”，根据ｐａｔｈｎａｒｎｅ和

Ｐａｒｓｅｒ解析定义在＜ａ＞超链接＜／ａ＞之内的所有ＵＲＬ超链接，得到各个城市的中文网页ＵＲＬｏ再利用得到的所有中文网页ＵＲＬ，运用ＨＴＭＬＰａｒｓｅｒ解析定义在“其他语言＜ｌｉｃｌａｓｓ＝ｉｎｔｅｒｗｉｋｉ—ｅｎ＞＜ａｔｉ—ｔｉｅ＝”城市名”ｈｒｅｆ＝”ｈｔｔｐＪ／ｅｎ．ｗｉｋｉｐｅｄｉａ．ｏｒｇ／ｗｉｋｉ／城市名”＞Ｅｎｇ—ｌｉｓｈ＜／ａ＞＜月．＞”的所有配对英文网页ＵＲＬｏ

３２双语平行或可比较句段的挖掘结果

从维基百科挖掘中国城市列表，县级以上共计３２２９个，挖掘到的双语语句段２８５１个，含有中英文双语平行和可比较平行的句段２８２５个，取得了８８％的召回率与９９％准确率。实验结果贡献来源：一是采用ＵＲＬ命名规则从过滤后的中文网页ＵＲＬ中解析得到配对的英文网页ＵＲＬ；二是采用网页结构特征、词语对齐和最大熵分类器的技术。

４总结

本文研究的双语语料自动获取方法融合现有方法的优点并进行改进，取得了较好的效果。利用ＵＲＬ命名相似性获取中英文配对网页ＵＲＬ，采用网页ＨＴＭＬ结构一致性、词语对齐和最大熵分类器的技术进行挖掘，有效地提高了挖掘质量。下—步将进一步研究挖掘的中英文句段，去除重复句对、将平行和可比较句段分开，使其更加有效的运用

于获职大规模双语语料。

【参考文献】

ｆ１】Ｊｍｎｇ

Ｃｈｅｎ

ａｎｄ

Ｊｉａｎ—Ｙｕｎ

Ｎｉｅ．Ａｕｔｏｍａｔｉｃｃｏｎｓ臼Ⅵｃｔｉｏｎ

ｏｆＰ３豫：ｕｅｌ

ｅ“ｇ—

ｌｉｓｈ—ｃｂＪｎｅｃ，ｅｃｏｒｐｕｓｆｏｒＣＩ＇Ｏ《一ｌａｎｇｕａｇｅｉｎｆｏｒｍａｄｏｎｒｅｔｒｉｅｖａｌ［Ａ］．Ｉｎ：Ｐｒｏｃｅｅｄｉｎｇｓｏｆ

ｔｈｅ

Ｉｎｔｅｒｍｔｉｏｎ．ａｌＣｏｎｆｅｒｅｎｃｅ

ｏｎ

ＣｈｉｎｅｓｅＬａｎｇｕａｇｅ

Ｃｏｍｐｕｔｉｎｇ［ｑ．Ｓａｎ

Ｆｒａｎｃｉｓ—

ｃｏ。ｐａｇｅｓ２．１口２８，２０００．１２１

ＰｈｉｌｉｐＲｅｍｉｋ

Ｐａｒａｌｌｅｌｃ，ｔｌ：ａｎｄｓ：ａｐｒｅｌｉｍｉｎａｒｙ，ｉｎｖｅｓｔｉｇａｔｉｏｎ

ｉｎｔｏ

ｍｉｎｉｎｇｔｈｅｗｅｂ

ｆｏｒｂｉｌｉｎｇｕａｌｔｅｘｔ［Ａ］．Ｉｎ‘Ｐｒｏｃｅｅｄｉｎｇ

ｏｆｔｈｅＴｂｉｒｄＣｏｎｆｅｒｅｎｃｅｏｆｔｈｅ＾黛ｏｃｉａ６０ｎｆｏｒ

Ｍａｃｈｉｎｅ

Ｔｒａｒａｌａｏｏｎ［Ｃ］．Ａｍｅｒｉｃａ．ｐａｇｅ‘７２口８２，１９９８．

１１梵Ｈ∞“）ＧＹｌｌ咖２５５

。ｂａｓｅｎａｍｅ的规则，过滤掉ＵＲＬ结构不一致的网页，运用ＨＴＭＬ

共2页:

基于维基百科的双语语料挖掘技术研究.doc 将本文的Word文档下载到电脑下载失败或者文档不完整，请联系客服人员解决！

下载这篇word文档