本项目综合并发展现有的双语库句子和词汇对齐算法,研究高效率的汉英句子和词汇/词组块对齐系统,从中提取术语、术语搭配及词组块对译词表达;研究自动提取词汇和词组块(MWU)对译概率值,研究自动提取及应用词组块翻译模板提高机器翻译质量;开展相关的研究,包括利用该单位年产出率近千万字的当代汉英并行语料库自动提取术语搭配表达的术语搭配词库研究,以及建立大规模的汉英双语词典和汉英互译知识库的研究等。
无论汉英机器翻译系统采用基于规则、基于实例、基于统计的方法,对汉英双语语料库进行句对齐、词对齐、多词表达对齐已经成为解决机器翻译系统知识获取瓶颈的重要手段,特别是基于双语平行语料库提取词组块及其翻译等价对,对机器自动翻译、新词典编撰、跨语言检索等学科研究有非常重要的意义。 本项目借鉴现有的双语库句子和词汇对齐算法,进行汉英句子自动对齐的算法的研究、对汉英句子进行分词及词性标注研究、从汉英双语句对中提取术语搭配的算法和模型研究、从汉英双语句对中提取术语搭配对译表达和翻译模板的算法和模型研究,并通过汉英双语语料库进行术语搭配对译表达和翻译模板抽取实验。促进从汉英平行语料库中提取翻译知识的研究的进展。