面向查询的多文档自动文摘技术研究-东篱科研大数据发现系统（DRDS）

位置：立项数据库 > 立项详情页

面向查询的多文档自动文摘技术研究

项目名称：面向查询的多文档自动文摘技术研究
项目类别：面上项目
批准号：60673040
申请代码：F020601
项目来源：国家自然科学基金
研究期限：2007-01-01-2007-12-31

项目负责人：何婷婷
负责人职称：教授
依托单位：华中师范大学
批准年度：2006

中文摘要：

面向查询的多文档自动文摘的任务是基于特定查询，将查询结果中多个文档中的相关内容浓缩为一个覆盖主要相关主题、简洁、组织良好、连贯的摘要。在Internet环境下，它所提供的信息比一般文档检索更具体，比普通的多文档自动文摘更具有针对性，更能适应用户信息获取的个性化需求。本项目主要研究面向查询的多文档自动文摘的关键技术①由于针对特定查询得到的相关文档集合的主题往往集中在各文档的若干段落中，我们提出以段

中文主题词：多文档自动文摘;查询;聚类;特征融合

英文摘要：

Multi-document Summarization;Q

英文主题词： Multi-document Summarization;Q

结论摘要：

本项目研究面向查询的多文档自动文摘的关键技术，以生成符合特定查询需求的、主题覆盖面广、内容简洁、结构良好的连贯摘要为目标。该摘要能适应Internet 环境下用户信息获取的个性化需求，节省有效信息的浏览时间。研究中充分利用了现有的文本检索技术、多文档自动文摘技术，并结合数据挖掘方法，对用户的检索需求及文摘任务作了充分的分析，探索了面向查询的多文档自动文摘的关键技术及实现方法。实现了基于主题词对的文本查询结果的重排方法、开展了基于并行遗传算法的聚类研究、验证了利用段落聚类发现子主题的可行性及有效性、探索了利用网络化数据挖掘思想、复杂网络的理论和方法开展多文档自动文摘研究的可行性、实现了用网络结构表达段落间的语义关联、用网络抱团实现段落聚类及子主题发现、提出了基于多特征融合的文摘句抽取策略。基于DUC语料库和大规模汉语语料库的实验结果验证了本项目中提出方法的可行性和有效性。本项目的研究成果对于信息检索、自动问答、数字图书馆、企业商业信息监测与分析等领域均有重要的应用价值。

成果综合统计