面向查询的多文档自动文摘的任务是基于特定查询,将查询结果中多个文档中的相关内容浓缩为一个覆盖主要相关主题、简洁、组织良好、连贯的摘要。在Internet环境下,它所提供的信息比一般文档检索更具体,比普通的多文档自动文摘更具有针对性,更能适应用户信息获取的个性化需求。本项目主要研究面向查询的多文档自动文摘的关键技术①由于针对特定查询得到的相关文档集合的主题往往集中在各文档的若干段落中,我们提出以段
本项目研究面向查询的多文档自动文摘的关键技术,以生成符合特定查询需求的、主题覆盖面广、内容简洁、结构良好的连贯摘要为目标。该摘要能适应Internet 环境下用户信息获取的个性化需求,节省有效信息的浏览时间。研究中充分利用了现有的文本检索技术、多文档自动文摘技术,并结合数据挖掘方法,对用户的检索需求及文摘任务作了充分的分析,探索了面向查询的多文档自动文摘的关键技术及实现方法。实现了基于主题词对的文本查询结果的重排方法、开展了基于并行遗传算法的聚类研究、验证了利用段落聚类发现子主题的可行性及有效性、探索了利用网络化数据挖掘思想、复杂网络的理论和方法开展多文档自动文摘研究的可行性、实现了用网络结构表达段落间的语义关联、用网络抱团实现段落聚类及子主题发现、提出了基于多特征融合的文摘句抽取策略。基于DUC语料库和大规模汉语语料库的实验结果验证了本项目中提出方法的可行性和有效性。本项目的研究成果对于信息检索、自动问答、数字图书馆、企业商业信息监测与分析等领域均有重要的应用价值。