本申请以多文档信息重组为基础内核,建立一个适合多任务的中文多文档自动文摘模型。在剖析多文档主题结构的基础上,深入研究了文本片段相似度计算、多文本主题结构分析、关键信息抽取、文摘句冗余消除、时序排列、文摘评测等一系列关键技术并最终建立起一个高效、准确的汉语多文档自动文摘系统。在最为关键的多文本信息重组算法中,引入了更为接近文本集合真实内容的层次主题结构的概念,以及动态变阈值文本片段聚类的层次主题结构识别算法。在多文档关键信息抽取策略上,通过文本单元信息量化模型以及多知识源的并行融合算法实现了针对不同文摘需求的关键信息抽取。最后本申请还提出了基于模糊标注的多文档文摘评测方法,实现了多文档文摘定量、客观评测。本申请的相关研究成果能够进一步促进相关汉语自然语言处理技术的发展,同时,一个可行的多文档自动文摘模型对于加快人们对网络信息的处理速度与准确率具有重要的实际应用价值。
英文主题词Multi-document automatic summarization; information reorganization; hierarchy theme structure; multiple knowledge sources fusion