位置:立项数据库 > 立项详情页
面向查询的XML文本自动文摘研究
  • 项目名称:面向查询的XML文本自动文摘研究
  • 项目类别:青年科学基金项目
  • 批准号:60803105
  • 申请代码:F020606
  • 项目来源:国家自然科学基金
  • 研究期限:2009-01-01-2011-12-31
  • 项目负责人:刘德喜
  • 负责人职称:副教授
  • 依托单位:江西财经大学
  • 批准年度:2008
中文摘要:

对信息检索结果进行自动摘要可以提高用户获取信息的效率。本项目围绕面向查询的XML文本摘要开展研究,取得的主要研究成果有①提出了以内容查询为主、结构查询为辅、不依赖于结构约束来查找答案结点并评价的方法;②提出了面向用户查询意图的检索结果聚类方法;③构建了3000余篇面向查询的XML文本摘要语料库;④提出了基于三类特征的XML摘要句抽取方法及基于PageRank的摘要句重排方法;⑤提出了基于主题概括强度的结点(标签/路径)语义权重模型;⑥将结点语义权重用于改进BM25模型,提出了基于BM25SF的XML片段检索策略;⑦参加了国际INEX 2011的片段检索评测,并取得了第二名的优异成绩;⑧提出了不确定数据库上两种新的Top-k查询语义和快速搜索算法。获得的重要结论有①对XML查询结果的聚类和摘要要充分考虑用户的信息需求;②XML结构信息和结点的语义信息对提高XML检索和摘要的质量很有帮助;③利用结点语义权重进行XML片段检索有助于用户快速了解原文档的相关性; ④XML摘要内容的重排需要考虑更多的因素。

结论摘要:

英文主题词XML Retrieval; XML Text Summarization; Corpus; Node Semantic; Snippet Retrieval


成果综合统计
成果类型
数量
  • 期刊论文
  • 会议论文
  • 专利
  • 获奖
  • 著作
  • 21
  • 15
  • 0
  • 0
  • 0
相关项目
期刊论文 33 会议论文 14 获奖 2 著作 1
期刊论文 1 会议论文 3
期刊论文 7 会议论文 1
期刊论文 29 会议论文 6 著作 3
期刊论文 26 会议论文 16 获奖 2
期刊论文 27 会议论文 9
刘德喜的项目