位置:立项数据库 > 立项详情页
基于结构化学习的有监督词对齐方法研究
  • 项目名称:基于结构化学习的有监督词对齐方法研究
  • 项目类别:青年科学基金项目
  • 批准号:61003112
  • 申请代码:F020605
  • 项目来源:国家自然科学基金
  • 研究期限:2011-01-01-2013-12-31
  • 项目负责人:戴新宇
  • 负责人职称:副教授
  • 依托单位:南京大学
  • 批准年度:2010
中文摘要:

机器翻译是自然语言处理和人工智能领域的重要问题之一,在文本信息处理的各个方面都得到了广泛的应用。词语对齐是统计机器翻译的必需步骤,对机器翻译的结果有决定性的影响。传统的词对齐采用无监督的方法,近年来,人们开始利用有标记的信息进行有监督的基于结构化预测的方法来提高词对齐的效果。 针对现有的基于结构化预测的词对齐研究中存在的难以融入全局特征、数据稀疏、领域不一致等问题,本项目拟结合国内外现有的研究成果,在结构化预测的框架下,采用基于压缩森林的重排序方法、协同训练、子样本加权等策略,探索更为有效的利用标记数据的词对齐学习方法,从而提高机器翻译系统的效果。

结论摘要:

机器翻译是自然语言处理和人工智能领域的重要问题之一,在文本信息处理的各个方面具有广泛的应用。词对齐是统计机器翻译中的必需步骤,对机器翻译的结果有决定性的影响。本课题的主要研究目标是在统计机器翻译环境中,在结构化预测的框架下,研究基于判别式的词对齐,以提高词对齐质量,进而提高机器翻译的性能。按照研究计划, 本课题对基于结构化学习框架的词对齐方法进行了系统、全面的研究与分析。在词对齐过程中的搜索效率、面向词对齐及机器翻译的中文分词、双语语义关联挖掘、领域适应方法等方面进行了探索研究。其中,在基于ITG的词对齐的搜索效率研究中,针对词对齐的结构化歧义问题,提出了一种改进的ITG文法LGFN文法,该文法可以有效地消除结构化歧义从而提高搜索效率。提出一种假设剪枝方法,使得搜索被约束在较高质量的词对齐空间中,以提高搜索效率。在面向词对齐及机器翻译的中文分词研究中,针对中文分词对统计机器翻译的全局影响,提出了汉英机器翻译中中文分词的串行式融合策略。针对中文分词对词对齐阶段局部影响,提出了一种并行式融合策略,将基于多种分词的词对齐结果用启发式方式进行融合。提出了基于能够融合多种分词结果的判别式词对齐框架。在双语语义关联挖掘中,提出一种基于统计稀疏模型的双语词汇及短语语义关联发现方法。 在领域适应问题上做了一些探索研究,针对情感分析场景,提出一种基于多视图主成分分析的领域迁移方案。基于本课题的理论研究成果,课题组在机器翻译系统方面参加了全国机器翻译研讨会和美国标准研究院组织的三次评测,均取得优良成绩。 课题组在项目执行过程中,共发表论文15篇,其中SCI检索2篇,EI检索5篇。申请发明专利3项,授权1项。培养博士生4人,硕士生4人。


成果综合统计
成果类型
数量
  • 期刊论文
  • 会议论文
  • 专利
  • 获奖
  • 著作
  • 12
  • 8
  • 0
  • 0
  • 0
相关项目
期刊论文 27 会议论文 6 著作 1
戴新宇的项目