本课题研究统计机器翻译的知识获取与解码技术。提出了中心扩展的短语对齐方法,摆脱了汉、英之间语法异构性的制约。同时考虑源语言满足句法约束和不满足句法约束的短语翻译对,以覆盖更多的语言现象。提高词汇覆盖度,细化语义分类体系,利用语义知识、句法和统计信息来增加译文中心的识别率。深度挖掘汉、英语言学之间的对等关系,使用句法、词性、词形、语义和长度等属性来定义双语评价特征,揭示评价特征与短语翻译对自身特性之间的关系。在输入句子的句法树上,以调序概率和插入概率为基础来构建译文调序模型,使调序过程可以充分地利用句法边界信息。结合双语评价特征,使用最大熵算法来选择译文路径,以综合考虑多种上下文相关信息。力求降低搜索解码空间,提高机器译文输出质量,为基于句法的统计机器翻译提供一个新的解决思路。
Machine translation;Phrase alignment;Bilingual evaluation features;Active acquisition;Reordering translations
本项目研究了统计机器翻译的知识获取与解码技术。对短语对齐的相关问题进行了探讨,设计了短语翻译对的标注方法。挖掘汉、英语言学之间的对等关系,使用词形、频度和长度等属性来定义双语评价特征,包括短语译文直译率、短语翻译概率和源语言-目标语短语长度差异,以衡量汉语短语和英语短语之间的互译对等性。在短语翻译对训练数据集上,使用N-Best策略来衡量双语评价特征的性能。定义了汉语短语的译文中心,给出了译文边界的确定算法。在确定汉语短语的译文中心时,本项目采取词典对齐、译文相似度计算、语义相似度计算和统计方法循序渐进的方案。在此基础之上,提出了中心扩展的短语对齐方法,即以译文中心为基础,不断向左右两侧连续扩展目标语单词,以生成源语言短语的目标语候选译文。同时,以短语译文直译率为消歧特征,从候选译文中选出一个最为合理的。在该方法中,仅仅使用了汉语句法分析器和汉-英词汇对齐工具,以摆脱汉、英之间语法异构性的制约。在双语评价特征的基础上,分别使用多重线性回归模型、支持向量机模型和感知器模型来消除自动获取的短语翻译对中的噪声。提出了一种利用双语评价特征来进行译文评价的短语翻译对主动获取方法,通过选择有代表性的短语翻译对以达到减少人工标注数据的目的。使用标注后的短语翻译对对SVM分类器进行训练,实验结果表明使用这种方法,在分类器性能基本没有下降的前提下,可以降低人工标注数据量。本项目从短语翻译对中抽取汉-英语序对应关系,提出了一种利用语言学特征和错误驱动学习相结合的源语言-目标语对等模式获取方法。使用对等模式来改变汉语句法树的结构,使其生成的译文符合英语语序要求。实验结果表明使用这种方法对汉-英双语句对中的汉语句子进行调序,词链交叉率有所降低。本项目通过引入对等模式,将整个翻译过程拆分为两个不同的部分,即译文调序过程和译文选择过程。整个解码过程变为对调序后的汉语句子实施词汇翻译的过程。以此为基础,建立了统计解码模型。实验结果表明该方法使译文输出质量有所上升。