Internet的发展使得各种信息急剧增加,信息检索是人们高效获取所需信息必不可少的渠道,文本信息融合技术可将来自多个信息源的文本信息片段综合整理,有效地减轻了对检索结果的阅读负担。将多个信息源(文档)的信息组合成逻辑性强、一致性高的一篇文本,需要对相应的信息片段(句子)进行排序,排序的结果直接关系到所生文本的可读性。目前国内对文本信息融合中句子排序的研究只局限于在多文档自动文摘或问答系统中简单提到,还没有把它专门作为一个课题进行深入的研究,国际上也没有专门针对中文文本的句子排序研究。本项目通过人工分析与数据挖掘相结合的办法,分析人在中文句子排序时的行为模式,总结出句子排序时可用到的各种特征,并对其进行量化,在此基础上集成各项特征,设计排序模型,通过句子与句子之间关系构建有向图,用改进的PageRank方法对图中节点进排序。最后将排序模型集成在文本信息融合系统中,提高文本信息融合结果的质量。
英文主题词Chinese Sentence Ordering; Information Fusion; MDS; Precedence diagram; Basic Elements