问答系统提供了自然语言的人机交互方式,是当前研究的热点问题。本项目定位于受限域问答系统理论参考模型及实现技术理论与算法研究。首先,研究受限领域本体库的表示,自动提取和构建方法,并结合现有的常识库,研究领域本体库与通用常识库的融合问题。其次,将重点研究问句分析理论和技术实现算法,利用现有的词法,句法及语义分析理论,借助于的统计学习方法和浅层句法分析理论,研究汉语问句的分类问题,汉语问句的语块识别问题,汉语问句的相似度计算方法问题。为了提高答案提取的准确率和召回率,本项目还将研究如何借助于领域知识库及问题分析结果来获取领域知识文本和进一步的答案提取理论和方法。最后,将以受限问答系统理论为指导,构建一个针对云南旅游行业的问答系统原型系统。该项目的研究将为受限域提供一个问答系统理论参考模型,同时提出的一些关键技术理论及实现方法将推动问答系统的实用化过程,为各行各业提供各种实用的问答系统奠定基础。
问答系统提供了自然语言的人机交互方式,是当前研究的热点问题。项目围绕受限域汉语问答系统关键技术进行了研究和探讨,在以下几个方面取得了一些进展1.在特定领域,提出采用"知网"KDML语言对领域知识进行描述,收集描述了云南旅游2012术语,构建了领域知识库,并实现了与常识库"知网"融合;2.在问句分析方面,收集了23类旅游领域3万多问答对,并进行了语义标注,为问句分析提供了必不可少的语料,并实现了融合词法、句法、语义及领域知识的问句分类及问句相似度计算方法,取得了初步的效果;3.在领域文本检索方面,提出了借助领域知识进行文本分类和文本检索方法,搭建了领域文本检索平台,有较好的效果;4.在段落检索方面,提出了考虑查询词及扩展词在段落中的词频、段落长度、分布密度及分布距离的权重计算方法,取得了初步效果;5.在答案抽取方面,提出了模式学习和模式匹配的提取答案的方法,实现部分事实性问题的答案提取。6.在中文FAQ问答方面,实现了云南旅游FAQ问答原型系统,有很好的效果。本项目对受限领域问答系统进行了全方位的探索,摸清了该研究问题的重点难点,取得了局部的进展,为进一步的研究奠定了坚实的基础。