自动摘要技术广泛应用于信息的检索、定制、分析与追踪,当前的研究热点包括查询导向、更新式、主题聚焦等多文档摘要任务及其相互融合技术。传统的多任务融合方法通过权值控制每种任务在排序中的重要度,难于全面反映任务的全部信息,且忽略了融合前任务间的交互作用。本课题提出一个通用的反馈式排序框架F-Rank,通过灵活的反馈学习方式和排序改进策略,为不同类型和不同数量的自动摘要提供一种能够综合反映摘要任务目标的交互式排序结果融合方法;提出并研究基于正负增强句子关联关系的更新式摘要模型R-PNR及其句子打分和排序方法;基于文档、句子和词三个文本粒度的相互增强关系,提出结合用户查询需求影响的相互增强链模型Q-MRC,实现查询导向的多文本粒度间的相似度测度和句子排序方法;在此基础上,基于F-Rank框架对以上两个摘要任务的基本排序结果进行交互式反馈学习和融合排序,从而生成查询导向的更新式摘要的综合排序结果。
Multi-document summarization;Query-focused;Updated;Ranking;Similarity
自动摘要技术广泛应用于信息的检索、定制、分析与追踪,当前的研究热点包括查询导向、更新式、主题抽取等多文档摘要任务及其相互融合技术。传统的多任务融合方法通过权值控制每种任务在排序中的重要度,难于全面反映任务的全部信息,且忽略了融合前任务间的交互作用。 本课题的主要研究内容及成果包括1)提出并实现基于时间元素和图模型的文摘句子打分和排序方法以及更新式摘要;2)提出并实现基于LDA与LSI线性融合的用户查询扩展框架;3)提出并实现基于概念空间图理论的查询词扩展方法;4)基于文档、句子和词三个文本粒度的相互增强关系,提出结合用户查询需求影响的相互增强链模型,并结合查询扩展方法,实现查询导向的多文本粒度间的相似度测度和句子排序方法;5)面向微博海量数据,提出基于压缩感知的主题提取和短文本摘要方法;6)在此基础上,提出一个通用的互反馈式学习排序框架F-Rank,通过new-SRCC指导,实现灵活的反馈学习方式和排序改进策略,为不同类型和不同数量的自动摘要提供一种能够综合反映摘要任务目标的交互式排序结果融合方法。 基于F-Rank对以上摘要任务的基本排序结果进行交互式反馈学习和融合排序,从而生成了查询导向的更新式摘要的综合排序结果。与相关研究的实验比较表明,本课题方法的各类性能参数均有着更佳的表现。相关研究成果在国内外文献科技查新中未见相同报道,可广泛、高效地应用于个性化新闻信息的浏览与定制、舆情监控、企业商业情报的分析与追踪、科技图书与情报检索和电子政务等领域,具有较大的研究意义和应用价值。