我国是一个统一的多民族国家。民族语言机器翻译的研究对维护我国民族地区的社会稳定和反对分裂活动、加强各民族交流、传承并发展民族文化、民族语言信息化技术的发展等都具有极为重要的意义。维吾尔语是我国使用人口最多的几个少数民族语言之一。维吾尔语属于维吾尔语属阿勒泰语系突厥语族,是一种复杂形态语言,复杂形态语言机器翻译建模是机器翻译研究面临的重要科学问题。本课题将以目前最先进的基于短语的维汉统计机器翻译技术的研究为基础着重研究解决制定维汉词语对齐规范、对数线性模型的维汉词对齐特征选取、非连续词语串中双语短语的抽取、短语相似度中形态信息影响度量等问题。最终目标是建立一个基于混合策略的维汉机器翻译系统。研究可以为将来面对对哈(哈萨克文)汉、乌(乌孜别克文)汉、柯(柯尔克孜)汉、土(土耳其文)汉机器翻译系统的开发打下坚实的基础.
Bilingual parallel corpus;Complex morphological language;Uyghur-Chinese statistical MT;;
我国是一个统一的多民族国家。民族语言机器翻译的研究对维护我国民族地区的社会稳定和反对分裂活动、加强各民族交流、传承并发展民族文化、民族语言信息化技术的发展等都具有极为重要的意义。维吾尔语属于阿勒泰语系突厥语族,是一种复杂形态语言,复杂形态语言机器翻译建模是机器翻译研究面临的重要科学问题。通过本项目的实施,完成了维汉词语对齐规范的制定,在研究维-汉词和句子对齐技术的基础上开发了维-汉词语对齐工具,研究了维-汉短语抽取方法和短语相似度计算中形态信息影响度量等问题并构建了现代维吾尔语语言资源综合处理平台。借助该平台建立了目前为止不仅在规模而且在覆盖面方面都排在前列的维汉平行语料库,最终建立了一个基于混合策略的维汉短语统计翻译系统。本项目研究过程中,发表了相关论文18篇、获取了软件著作权3项、培养了1名博士、10名硕士、在读博士生2名、在读硕士1名,构建的维文平衡语料库词条总数2332万多,已标注的74万多,维汉对齐平衡语料23万,维汉机读词典13万, 本项目所构建的平行语料库分别为两次全国机器翻译研讨会(CWMT)提供,作为评测项目数据并放在中文语言资源联盟(ChineseLDC),推进了全国在维汉机器翻译研究的进步。