位置:立项数据库 > 立项详情页
基于含隐结构变量的结构化预测模型的中文语义解析研究
  • 项目名称:基于含隐结构变量的结构化预测模型的中文语义解析研究
  • 项目类别:面上项目
  • 批准号:61073119
  • 申请代码:F020601
  • 项目来源:国家自然科学基金
  • 研究期限:2011-01-01-2013-12-31
  • 项目负责人:周俊生
  • 负责人职称:副教授
  • 依托单位:南京师范大学
  • 批准年度:2010
中文摘要:

语义解析(semantic parsing)任务的目标是将自然语言形式的句子转换成一种完全形式化的意义表示,从而使得自然语言形式的句子能够被计算机自动理解和执行。本课题针对中文的特点,研究与设计一种基于统计学习模型的鲁棒的中文语义解析实现方法。课题结合中文GIS自然语言交互这个实际应用领域,首先定义与设计有效的形式化意义表示语言,并构建相应的中文语义解析标注训练语料;通过将中文语义解析任务看成是一种结构化预测任务,提出一种基于含隐结构变量的结构化SVMs模型的中文统计语义解析算法,引入同步上下文无关文法SCFG等隐结构对输入与输出之间的对应关系进行建模,并设计相应的学习算法;进一步通过将直推式SVMs的思想扩展到含隐结构变量的结构化SVMs模型中,研究与设计一个半监督的中文语义解析算法,以利用大量未标注的查询语句实例提高和改进中文语义解析的性能。

结论摘要:

语义解析是自然语言处理领域中的一个重要研究问题,它的目标是将自然语言句子转换成一种完全形式化的意义表示。针对中文语义解析相对缺乏研究的现状,我们选择中文GIS自然语言接口作为应用领域展开系统的中文语义解析研究。首先,我们结合具体应用领域设计了一个完整的函数式的形式化意义表示语言GISQL;在此基础上,我们进一步开发了一个中文语义解析标注语料库,共收集了1110条覆盖各类GIS地图查询问题的真实问题查询实例,并逐一给出了基于GISQL的意义表示的完整标注,开发了首个面向实际应用的中文语义解析标注语料库。接下来,我们将中文语义解析任务转化成一种结构化预测问题,通过引入混合树作为隐变量用于构造输入句子与输出表示结构之间的对应关系,提出了一种基于含隐结构变量的感知器模型的语义解析算法。该方法既具有判别式模型能够方便地嵌入各种灵活的特征组合表示的优点,又自然地将有效地解码算法集成在训练与推理阶段。进一步,为提高解码算法的效率与准确性,我们提出一种基于向量空间模型的意义表示产生式排序的方法用于抽取更小的产生式子集作为候选产生式集合。通过在公开英文数据集GeoQuery上的十折交叉实验结果显示,我们提出的方法在准确率、召回率以及F1-值的指标上均明显高于国外现有的其他模型与算法。为了将语义解析算法应用于中文GIS自然语言接口领域,我们首先开展了针对中文句子的相关预处理研究。提出和设计了一种基于联合模型的中文命名实体识别方法,实现将实体的边界划分和实体的类型分类两个子任务的联合处理,相对于现有的序列化标注方法,识别性能获得了显著改进。另外,我们设计了一种基于联合模型的组块分析方法,该方法能够充分利用组块层的特征,在中、英文的数据集上均获得了当前最高的实验性能。最后,我们设计与实现了一种较鲁棒的中文GIS自然语言交互系统,基于我们设计和开发的中文语义解析标注语料库,采用我们提出的含隐结构变量的感知器模型的语义解析算法,进行了十折交叉验证的实验,F1值达到了90.31%,获得了较满意的实验性能。更重要的是,本课题的研究成果证明了基于语义解析方法实现中文GIS的自然语言接口是一种有效可行的途径,因而将会进一步推动智能GIS的发展与应用普及。


成果综合统计
成果类型
数量
  • 期刊论文
  • 会议论文
  • 专利
  • 获奖
  • 著作
  • 10
  • 4
  • 0
  • 0
  • 0
相关项目
周俊生的项目