面向查询的XML文本自动文摘研究-东篱科研大数据发现系统（DRDS）

位置：立项数据库 > 立项详情页

面向查询的XML文本自动文摘研究

项目名称：面向查询的XML文本自动文摘研究
项目类别：青年科学基金项目
批准号：60803105
申请代码：F020606
项目来源：国家自然科学基金
研究期限：2009-01-01-2011-12-31

项目负责人：刘德喜
负责人职称：副教授
依托单位：江西财经大学
批准年度：2008

中文摘要：

对信息检索结果进行自动摘要可以提高用户获取信息的效率。本项目围绕面向查询的XML文本摘要开展研究，取得的主要研究成果有①提出了以内容查询为主、结构查询为辅、不依赖于结构约束来查找答案结点并评价的方法；②提出了面向用户查询意图的检索结果聚类方法；③构建了3000余篇面向查询的XML文本摘要语料库；④提出了基于三类特征的XML摘要句抽取方法及基于PageRank的摘要句重排方法；⑤提出了基于主题概括强度的结点(标签/路径)语义权重模型；⑥将结点语义权重用于改进BM25模型，提出了基于BM25SF的XML片段检索策略；⑦参加了国际INEX 2011的片段检索评测，并取得了第二名的优异成绩；⑧提出了不确定数据库上两种新的Top-k查询语义和快速搜索算法。获得的重要结论有①对XML查询结果的聚类和摘要要充分考虑用户的信息需求；②XML结构信息和结点的语义信息对提高XML检索和摘要的质量很有帮助；③利用结点语义权重进行XML片段检索有助于用户快速了解原文档的相关性； ④XML摘要内容的重排需要考虑更多的因素。

中文主题词： XML检索；XML文本摘要；语料库；结点语义；片段检索

结论摘要：

英文主题词XML Retrieval; XML Text Summarization; Corpus; Node Semantic; Snippet Retrieval

成果综合统计