基于信息重组的多文档自动文摘技术-东篱科研大数据发现系统（DRDS）

位置：立项数据库 > 立项详情页

基于信息重组的多文档自动文摘技术

项目名称：基于信息重组的多文档自动文摘技术
项目类别：青年科学基金项目
批准号：60803092
申请代码：F0206
项目来源：国家自然科学基金
研究期限：2009-01-01-2011-12-31

项目负责人：徐永东
负责人职称：副教授
依托单位：哈尔滨工业大学
批准年度：2008

中文摘要：

本申请以多文档信息重组为基础内核，建立一个适合多任务的中文多文档自动文摘模型。在剖析多文档主题结构的基础上，深入研究了文本片段相似度计算、多文本主题结构分析、关键信息抽取、文摘句冗余消除、时序排列、文摘评测等一系列关键技术并最终建立起一个高效、准确的汉语多文档自动文摘系统。在最为关键的多文本信息重组算法中，引入了更为接近文本集合真实内容的层次主题结构的概念，以及动态变阈值文本片段聚类的层次主题结构识别算法。在多文档关键信息抽取策略上，通过文本单元信息量化模型以及多知识源的并行融合算法实现了针对不同文摘需求的关键信息抽取。最后本申请还提出了基于模糊标注的多文档文摘评测方法，实现了多文档文摘定量、客观评测。本申请的相关研究成果能够进一步促进相关汉语自然语言处理技术的发展，同时，一个可行的多文档自动文摘模型对于加快人们对网络信息的处理速度与准确率具有重要的实际应用价值。

中文主题词：多文档自动文摘；信息重组；层次主题结构；多知识源融合

结论摘要：

英文主题词Multi-document automatic summarization; information reorganization; hierarchy theme structure; multiple knowledge sources fusion

成果综合统计