项目旨在研究从异构的网络资源中自动地获取知识,并以问题-答案对的形式加以表现和利用的方法。项目的具体研究内容包括问答语义相关性量化评价、网络社区结构化非文本特征的挖掘和应用、事实性问题的答案模板自动学习以及相关的问答知识检索系统构建等。项目通过采用Deep Learning的模型架构解决了以问答对为代表的短文本语义相关性量化的问题,其研究结论对于短文本信息挖掘研究具有普遍意义。项目对网络社区中的社会化信息在问答资源挖掘中的应用进行了较为深入的研究,研究表明合理的引入非文本特征对于问答信息的定位具有十分重要的作用。通过对网络半结构化和结构化知识的挖掘研究,本项目对事实性答案模板自动学习进行了初步的探索。此外,通过将理论研究成果与实际应用相结合,项目组开发了若干在线实用原型系统。本项目的实施为自动问答技术的进一步研究积累了一定的理论经验和语料资源,同时也为短文本信息处理研究的深入打下了基础。
英文主题词Question-answer resource mining; heterogeneous web information source; semantic relevance of QA pairs; non-textual features; fatoid answer template