统错误或人为错误无法通过双语词典的扩展来校正。
? 一词多义现象使同义词扩展引入一些额外的冗余信息,一定程度上影响了对齐精度。
? 汉语《同义词词林》电子词典在收录上也存在一些问题,对其进行进一步加工和整理,可能会
获得比较理想的效果。
6 自动对齐算法和人工校对相结合构建句子对齐语料库
语料库的原始双语语料主要源自因特网,题材涉及新闻、体育、政治、生活、法律、环境、教育等多个领域,体裁包括演讲、政府报告、报纸、小说、白皮书、答记者问等多种形式。由于原始语料含有大量的冗余信息和文本噪声,需要先对原始语料首先进行人工预处理,主要包括固定编排格式、统一存储格式、繁体转简体、消除冗余信息和噪声、段落对齐等工作,经过预处理后双语语料规模(纯文本格式)31M字节。
运用上述自动对齐算法对预处理后的双语文本进行句子对齐,与人工校对相结合,形成具有标准规范标注的句子级对齐双语语料库,共计40.3M字节(纯文本格式),包含5984个文本,139617个句对。
7 结束语
我们在制定双语对齐文本标注规范的基础上,收集整理了大规模的中英双语语料,运用基于双语词典的方法实现了句子对齐,并对提高对齐精度做了进一步的研究。结合人工校对,构建了规模近14万句对、领域和体裁分布广泛的句子级对齐中英双语语料库,相信该资源建设将会对整个计算语言学的研究和发展提供积极的支持和推动作用。
参考文献
[1] P.F.Brown, J. C. Lai & R. L. Mercer: Aligning Sentences in Parallel Corpora, ACL-29, 169-176, 1991 [2] Gale, Church: A Program for Aligning Sentences in Bilingual Corpora, Computational Linguistics 19(1), 1991 [3] Dekai Wu: Aligning a Parallel English-Chinese Corpus Statistically with Lexical Criteria, In ACL-94: 80-87 [4] M. Kay & K. Roescheisen: Text-Translation Alignment, Computational Linguistics 19(1),121-142, 1993 [5] S. F. Chen: Aligning Sentences in Bilingual Corpora Using Lexical Information, ACL-31, 1993
[6] 刘昕,周明,黄昌宁.基于长度算法的中-英双语文本对齐的试验.计算语言学进展与应用.1995 [7] 吕学强,李清隐,陈文亮,姚天顺.汉英法律文献的子条级自动索引和对齐.中文信息学报 2002(4) [8] 杨沐昀,李生,赵铁军,方高林,吕雅娟.A Research on Bilingual Dictionary Based Sentence Alignment for Chinese English Parallel Corpus. 高技术通讯(英文版).2002,8(2)
[9] 常宝宝 詹卫东 柏晓静 吴云芳 张化瑞.服务于汉英机器翻译的双语语料库和短语库建设.第二届中日自然语言处理专家研讨会论文集.2002.p147-154.