基于句法的统计翻译模型是近几年统计机器翻译研究的热点。我们在本基金课题的资助下,在这一领域开展了一系列研究工作,其中几项主要的研究工作包括1.基于树到串对齐模板的统计翻译模型,该模型刻划了源语言的句法树和目标语言词串之间的映射关系,我们研究了模板规则的自动抽取、统计建模和解码算法,取得了很好的效果。该项工作是我们后续研究工作的基础;2.基于句法森林的统计翻译模型,采用压缩森林表示方法,在多项式空间内表示了指数数量的句法分析结果,这种方法克服了早期树到串模型受句法分析正确率影响较大的缺点;3.基于最大熵括号转录语法的统计翻译模型,该模型采用最大熵分类算法来决定括号转录语法中保序规则和逆序规则的使用,不使用任何语法知识,利用较小的参数空间取得了较好的结果;4.基于最大熵的规则选择模型,该模型可以利用上下文知识提高各种基于句法的统计模型中规则选择的准确率,并可以方便地集成到各种基于句法的翻译模型中。以上研究工作都发表在计算语言领域的顶级学术会议ACL、EMNLP、COLING上,产生了一定的影响。我们基于上述模型开发的机器翻译系统在国际机器翻译评测中取得了很好的成绩。
英文主题词Statistical Machine Translation; Chinese Information Processing; Statistical Translation Model; Syntax-based Model