位置:立项数据库 > 立项详情页
基于字依存的中文精细结构标注及其学习算法研究
  • 项目名称:基于字依存的中文精细结构标注及其学习算法研究
  • 项目类别:青年科学基金项目
  • 批准号:60903119
  • 申请代码:F020601
  • 项目来源:国家自然科学基金
  • 研究期限:2010-01-01-2012-12-31
  • 项目负责人:赵海
  • 负责人职称:副教授
  • 依托单位:上海交通大学
  • 批准年度:2009
中文摘要:

中文信息处理的基础问题是确定句子层的基本结构信息,包括的处理任务从词的切分开始直至确定句法语义成分。本项目将重点解决目前中文信息处理中的两个关键性的基础问题,一是如何有效而弹性地定义中文句子的基础结构,特别是能够有效涵盖包括词法层在内的精细结构信息;二是如何有效率地学习这些基础结构信息,同时有效地提高句子一级的学习性能。主要研究内容包括1)在语言学理论的指导下,研究基本的字依存树定义方法,探索一种具有较少的争议性以及符合语言学直觉的中文基础结构关系的表示方法;2)在研究现有的基于整个句子层面的机器学习框架的基础上,探索既能有效的实现特征表达同时又能高效的学习框架和新的学习模型,以更好地完成依存关系及其派生出来的各种结构化信息学习,同时能够在实用性环境下提升整句学习的性能;为了充分利用有限的学习资源,探索新的半监督度量方法,以便有效地降低标注的人力成本同时进一步地改进学习性能。

结论摘要:

本项目完成工作分为语料库建设和学习算法研究两个方面。在语料库建设方面,我们完成了词法内字依存的标完成了词法层面的依存树标注(对应的句子层面语料规模超过200万字),并形成了优化过的相应标注规范。通过比对本项目执行之前的标注,我们发现了一些新的值得关注的语言现象。在学习算法方面,我们发展了一套依存和组合范畴句法结构的高精度转换框架,使得所有的句法分析都可以归结为统一的数据驱动的依存结构学习。于此同时,发展了一种完全的无监督学习模型,该模型已经在图模型上显示出很强的分析性能。提出了更高阶的句法分析模型,目前的试验结果已经显示出鼓舞人心的结果。有关工作发表在本领域的顶级会议。多篇论文被国际重要会议接收。同时我们积极参加了本领域的评测,并且取得了优异的成绩。我们也注重在应用领域的研究,将其应用于中文输入法、拼写检查、机器翻译以及文本分类等多个领域。我们注重人才培养,并成功举办了第六届青年计算语言学会议,帮助推动本领域的发展。


成果综合统计
成果类型
数量
  • 期刊论文
  • 会议论文
  • 专利
  • 获奖
  • 著作
  • 2
  • 22
  • 0
  • 0
  • 0
会议论文
相关项目
赵海的项目