位置:立项数据库 > 立项详情页
纳西-汉语双语语料库构建与翻译方法研究
  • 项目名称:纳西-汉语双语语料库构建与翻译方法研究
  • 项目类别:地区科学基金项目
  • 批准号:61163022
  • 申请代码:F0206
  • 项目来源:国家自然科学基金
  • 研究期限:2012-01-01-2015-12-31
  • 项目负责人:余正涛
  • 负责人职称:教授
  • 依托单位:昆明理工大学
  • 批准年度:2011
中文摘要:

纳西文字是目前世界上"唯一活着的象形文字",但在现代文明的渗透下,正在变异和消亡。纳西-汉语双语语料资源构建及纳西语言分析方法是纳西语言信息处理的基础课题。本课题针对纳西语言特点,首先将研究面向纳西-汉语对齐文本的双语词语抽取方法,构建纳西-汉语双语电子词典,其次将研究纳西树库标记及依存关系识别方法,构建纳西依存树库,实现纳西依存句法分析系统,然后将研究纳西-汉语语料选取、标注规范、双语自动词语对齐方法,构建纳西-汉语双语词语级对齐语料库,最后将研究面向依存句法分析的树到串的纳西-汉语统计翻译方法,实现纳西-汉语双语句子互译原型系统,解决纳西-汉语双语知识资源建设、依存句法分析及机器翻译过程中的难点问题。项目研究成果将为机器理解纳西语言提供语言及语料资源,同时提出的纳西-汉语双语机器翻译方法将推动纳西语与汉语的互译互通,为保护、普及及传承纳西语言奠定基础。

结论摘要:

纳西语是世界上唯一活着的象形文字,纳西文字信息化及翻译研究对纳西文化的传承和保护有着重要的作用。项目围绕纳西语言信息化过程中的纳西字库制作,纳西-汉语双语词典、纳西依存树库、纳西-汉语双语语料库构建,纳西依存句法分析、纳西-汉语双语词对齐方法及纳西-汉语双语机器翻译等关键问题展开研究和探讨,取得了以下进展1.收集了4186个纳西象形文字,采用Unicode编码,制作了纳西字库,构建了6891个词的纳西-汉语-英语三语电子词典,研发了中文、英文和纳西拼音三种方式的纳西文字输入法;2.在纳西依存树库构建及依存句法分析方面,提出了基于汉语-纳西语语言对齐关系及协同训练的纳西语依存树库构建方法,制定了纳西依存树库标注规范,构建了3万句的纳西依存树库,研发了规则与统计相结合的纳西依存句法分析器;3.在纳西-汉语双语语料库构建及词对齐方法方面,针对纳西-汉语的语言特点,提出了融合特征约束及实体约束的纳西-汉语双语词语对齐方法,有效提高了纳西-汉语双语词对齐准确率,制定了双语词对齐标注规范,研发了双语词对齐的标注和管理工具,构建了23000句汉语-纳西语词对齐语料库;4.在纳西-汉语双语机器翻译方面,针对纳西-汉语的语法差异,提出了改进的依存树到串、树到树及子树对齐的汉语-纳西语机器翻译方法,针对纳西语言的词义及语义的特点,在统计句法翻译模型的基础上,探讨了融合谓词-论元、词义归纳及语义角色的翻译方法,设计实现了纳西-汉语双语翻译系统,表现了好的效果,为实现纳西-汉语双语学习系统奠定了基础。5.项目发表论文18篇,其中SCI收录3篇,EI收录10篇,受理发明专利1项,授权软件著作权5项,项目负责人通过培养入选中组部首批“万人计划”和国家“百千万人才”,培养博士研究生3名,培养硕士研究生16名,获得省级优秀硕士论文1篇。


成果综合统计
成果类型
数量
  • 期刊论文
  • 会议论文
  • 专利
  • 获奖
  • 著作
  • 18
  • 5
  • 0
  • 0
  • 0
相关项目
余正涛的项目
期刊论文 31 会议论文 27 获奖 1 专利 3
期刊论文 23 会议论文 5