位置:立项数据库 > 立项详情页
引入多源知识空间及协同语义分析的统计机器翻译方法研究
  • 项目名称:引入多源知识空间及协同语义分析的统计机器翻译方法研究
  • 项目类别:青年科学基金项目
  • 批准号:61005052
  • 申请代码:F030509
  • 项目来源:国家自然科学基金
  • 研究期限:2011-01-01-2013-12-31
  • 项目负责人:陈毅东
  • 负责人职称:副教授
  • 依托单位:厦门大学
  • 批准年度:2010
中文摘要:

本项目的研究目标是针对机器翻译的需要建立粒度更为精细且包含信息更为丰富的向量语义空间,并结合语义协同互动的特点提出一体化语义标注方法,进而构建语义增强的统计机器翻译模型。其中主要研究内容包括有多知识源向量语义空间构建、一体化语义标注方法研究、融合语义知识的双语词对齐方法研究以及语义增强的统计机器翻译模型研究等。在统计机器翻译中引入语义是统计机器翻译进一步发展的一种可能途径,但目前的研究还较少,基本上属于空白,本项目研究正是要开展这方面工作。为了更好地表示语义,本项目将研究在目前已得广泛应用的空间表示方法基础上通过引进多源知识加以丰富;为了进一步提高语义分析的准确性,本项目将研究利用语义协同互动的特点借用协同学手段实现一体化语义标注。很明显,这项研究无论是对于统计机器翻译研究或是对于语义研究,都是有着重要理论意义与实际意义的。

结论摘要:

本项目的研究目标是针对机器翻译的需要建立粒度更为精细且包含信息更为丰富的向量语义空间,并结合语义协同互动的特点提出一体化语义标注方法,进而构建语义增强的统计机器翻译模型。项目执行三年来,项目组成员围绕多源语义空间构建、协同语义标注方法以及语义增强统计机器翻译模型等三个方面开展了深入的研究。(1)在语义空间研究方面,项目组成员在基于依存的语义空间一般框架基础上进行扩充,融入了HowNet义类信息、韵律信息等多种知识来源的信息,最终建立了蕴含信息更丰富的多知识源的向量语义空间。为验证所建立向量语义空间的有效性,项目组成员还将其应用于中文商品评论情感分析、图书元信息的Web挖掘等研究中,获得了良好的效果。(2)在协同语义标注方面,项目组成员基于协同学理论,把语义标注过程看成是语境整体语义的形成过程,提出了一种基于协同神经网络的一体化标注模型,能同时处理词义消解和角色标注问题,在OntoNotes数据集的实验显示,此模型在词义消歧和角色标注上均能获得更好的标注结果。(3)在语义增强的统计机器翻译研究方面,项目组成员完成了五个主要的研究基于多目标进化算法的词语对齐模型进行改进研究,通过引入语义信息降低了错误率,并提高了效率;提出了一种在短语统计机器翻译模型中融入链语法语言模型的方法,在汉英翻译测试集上获得良好的实验效果;提出了一种基于向量语义空间模型的短语相似性新特征,并具体用于简繁汉字转换问题中,取得了显著改善的简繁转换效果;深入研究了主题模型在统计机器翻译模型自适应问题中的应用,提出了一种基于单语语料主题信息的翻译模型自适应方法和一种基于主题相似度的统计机器翻译枢轴概率推导方法,均有较好的实验效果。总体而言,三年来项目组成员依据项目计划进度稳步推进项目研究的开展,进展顺利,预期的目标基本完成,也取得了较好的成果。三年来,项目组成员累计在本领域重要的学术期刊和学术会议上发表了相关学术论文16篇,其中SCI检索论文1篇,EI检索论文9篇,另外有一篇SCI源期刊论文已录用;获得福建省自然科学优秀论文奖二等奖1项;申请发明专利1项;获得软件著作权2项;培养毕业硕士生5人。


成果综合统计
成果类型
数量
  • 期刊论文
  • 会议论文
  • 专利
  • 获奖
  • 著作
  • 14
  • 5
  • 0
  • 2
  • 0
相关项目
期刊论文 6 会议论文 2
期刊论文 3 会议论文 6 专利 1
期刊论文 10 会议论文 8 获奖 2
期刊论文 9 会议论文 4 专利 1
陈毅东的项目