本课题主要研究利用英语和汉语的词汇、语法、语义等多种信息有效地进行译文消歧的方法,探索源语言和目标语的各种语境信息在译文消歧处理过程中的作用,揭示其内在联系,从而最终建立基于双语信息的英汉译文消歧模型,设计并实现英汉译文消歧的实用算法。课题研究中将立足于现有的语料库自动加工技术,研究利用最大熵理论无指导地建立译文消歧模型。并采用"自举"的机器学习思想,将模型训练从英汉双语语料库扩展到规模更大的单语
语义歧义是自然语言处理中的一个核心难题之一。课题以涉及双语歧义的机器翻译为背景,深入探讨了英、汉这两种世界上使用最广泛的语言之间的译文消歧问题。鉴于单语语义消歧研究相对较多,课题重点研究探索了如何利用目标语信息解决英汉译文消歧问题,深入的研究利用目标语语义分类、利用目标语等价伪译词这两种对语言知识获取逐次增强的无指导译文消歧模型,经国际标准评测SENSEVAL-2的数据验证,基于目标语语义分类的方法可以取得目前最好性能(recall=46.7%),并在机器翻译系统中有望取得良好的效果。课题还探索了基于大规模双语语料库的双语语义词典的自动构建技术,建立了一部面向译文选择的英汉双语类义词典;同时所建立的汉语词义消歧测试语料已成为国际语义评测SENSEVAL-3中文标准评测数据。针对课题研究期间国际上出现的译文消歧对机器翻译是否有用这一争论热点,课题组通过实验全面揭示了译文消歧任务对机器翻译(无论规则还是统计方法)的性能提升潜力,从而廓清了对于译文消歧研究价值的模糊认识。