由于现有的汉语句法分析和语义计算模型不适合汉语的特点,没有有效刻画出汉语的本质特性,导致目前汉语句法分析和语义计算的效果与英语相比相差较大。我们认为,在汉语中,配价结构可以较好地刻画汉语句子的句法结构和语义构成关系,而话题结构反映了句子和篇章的组织关系。我们试图在研究汉语配价结构和话题结构的基础上,提出新的汉语句法语义理论和计算模型,解决汉语句法分析和语义计算中存在的关键问题,实现一个高性能的汉语句法分析和适于句子乃至篇章的汉语语义计算平台。同时,通过一定规模的实验加以验证,在句法分析和语义计算等系统性能上超过现有的基于句法树库(tree bank)和命题语料库(proposition bank)的方法,性能达到国际领先水平。
valance structure;topic structure;syntactic analysis;semantic analysis;computational modeling
本课题在研究汉语配价结构和话题结构的基础上,提出了新颖的汉语句法语义分析方法和计算模型,实现了一个高性能的汉语句法分析和语义计算平台,性能达到国际领先水平,为将来的进一步研究打下了扎实的基础。 三年来,课题总体进展顺利,所有研究计划已按要求完成,达到预期目标。特别是1)在句法分析和语义分析的联合建模方面,揭示了动词性谓词和名词性谓词的相互作用,提出了一个自底向上的联合学习模型,结合配价结构信息,将语义角色标注嵌入句法分析过程,优化句法分析。在Chinese PropBank语料库上,语义角色标注性能提高约2%。2)在汉语话题结构理论的研究方面,将中心理论从语法层面拓展到语义层面,成功应用于实体指代消解。在NIST ACE语料库上的实验表明,实体指代消解的性能平均提高了约7%。3)在句法结构化信息的有效使用方面,提出了支持上下文相关和模糊匹配的树核函数, 探索了包含丰富结构化信息的句法树自动获取,与其他树核函数相比,在Chinese PropBank和NIST ACE语料库上,语义角色标注和实体间语义关系抽取等语义计算性能分别提高约6%和9%。同时,探索了基于森林的语义角色标注,并将基于森林的方法推广到统计机器翻译,与使用单棵句法树相比,性能有了进一步的提升。 三年来,发表SCI索引源期刊论文5篇、EI索引源期刊论文4篇、国际顶级会议AAAI/IJCAI/CIKM/ACL/EMNLP/COLING论文36篇;获得专利1件;获得2010年教育部科技进步二等奖1项(项目主持人排名第二)。