基于Web的大规模双语语料库挖掘及翻译知识自动获取-东篱科研大数据发现系统（DRDS）

位置：立项数据库 > 立项详情页

基于Web的大规模双语语料库挖掘及翻译知识自动获取

项目名称：基于Web的大规模双语语料库挖掘及翻译知识自动获取
项目类别：青年科学基金项目
批准号：60603095
申请代码：F020601
项目来源：国家自然科学基金
研究期限：2007-01-01-2009-12-31

项目负责人：吕雅娟
负责人职称：副研究员
依托单位：中国科学院计算技术研究所
批准年度：2006

中文摘要：

双语语料库是统计机器翻译及多语自然语言处理研究的重要基础资源。本项目研究了基于Web的双语语料库及翻译知识自动获取技术，为大规模、多粒度、多领域的翻译资源的自动获取提供了有效的解决方案。主要研究内容包括1.基于平行网页的双语语料库自动获取；2.基于混合网页的双语语料库自动获取；3.基于Web的新词翻译自动获取；4.领域双语语料库及领域多词表达翻译的自动获取；5.利用自动获取的双语语料库及翻译知识改进统计机器翻译质量。在以上研究的基础上，建立了一个基于web的翻译资源自动获取平台，形成了一系列web翻译资源自动获取工具，可以实现持续、动态的双语翻译资源的自动获取。目前已经获得超过10亿词次的大规模汉英双语语料库和可比语料库，其中包括篇章和段落级对齐的双语语料库165万对，句对齐双语语料库600万句对，高质量（正确率大于95%）句对齐双语语料库300万句对，新词及领域术语翻译1万多条。基于该项目形成的一系列自动获取工具以及获得的翻译资源在实际的机器翻译和跨语言信息检索应用中取得了很好的效果, 并已经开始提供给国内外研究者共享。

中文主题词： Web; 双语语料库; 翻译知识; 机器翻译

结论摘要：

英文主题词Web; Bilingual corpus; Translation knowledge; Machine translation

成果综合统计