双语语料库是统计机器翻译及多语自然语言处理研究的重要基础资源。本项目研究了基于Web的双语语料库及翻译知识自动获取技术,为大规模、多粒度、多领域的翻译资源的自动获取提供了有效的解决方案。主要研究内容包括1.基于平行网页的双语语料库自动获取;2.基于混合网页的双语语料库自动获取;3.基于Web的新词翻译自动获取;4.领域双语语料库及领域多词表达翻译的自动获取;5.利用自动获取的双语语料库及翻译知识改进统计机器翻译质量。在以上研究的基础上,建立了一个基于web的翻译资源自动获取平台,形成了一系列web翻译资源自动获取工具,可以实现持续、动态的双语翻译资源的自动获取。目前已经获得超过10亿词次的大规模汉英双语语料库和可比语料库,其中包括篇章和段落级对齐的双语语料库165万对,句对齐双语语料库600万句对,高质量(正确率大于95%)句对齐双语语料库300万句对,新词及领域术语翻译1万多条。基于该项目形成的一系列自动获取工具以及获得的翻译资源在实际的机器翻译和跨语言信息检索应用中取得了很好的效果, 并已经开始提供给国内外研究者共享。
英文主题词Web; Bilingual corpus; Translation knowledge; Machine translation