位置:成果数据库 > 期刊 > 期刊详情页
一种基于文本单元关联网络的自动文摘方法
  • ISSN号:1003-6059
  • 期刊名称:《模式识别与人工智能》
  • 时间:0
  • 分类:TP391.2[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]复旦大学计算机科学与技术学院,上海200433, [2]复旦大学上海市智能信息处理重点实验室,上海200433, [3]同济大学计算机科学与技术系,上海200092
  • 相关基金:国家自然科学基金资助项目(No.60773123,60573183)
中文摘要:

提出一种基于文本单元关联网络进行自动文摘的方法.该方法根据文本单元之间的共现关系建立关联网络,计算文本单元的共现信息量,并认为共现信息量越大的文本单元在文本中越重要.文本单元可以是单词、短语、句子或段落,本文分别构建了基于单词和基于句子的关联网络.如果网络节点是单词,则先按照本文方法计算出单词基于共现信息量的权重,再根据单词的权重计算句子的权重.如果网络节点是句子,本文则提出一种方法计算基于句间共现信息量的句子权重,据此选出权重值较大的一定比例的句子组成文摘.实验结果表明本文方法能有效改善文摘的质量,优于其它基于文本关联网络的自动文摘方法.本文方法计算出的词语权重,可以进一步应用到关键词抽取、文本分类和聚类及信息检索中.

英文摘要:

An automatic text summarization approach is proposed based on textual unit association network. The word-based and sentence-based association networks are constructed respectively. For the word, a new approach is used to compute the word weights and then the weight of the sentence is evaluated based on the weights of words contained in the sentence. For the sentence, a new approach is presented to weight the salience of a sentence based on its cooccurrence information. Finally, salient sentences are extracted into the output summary till the desired summary length is satisfied. Experimental results show that the proposed approach can achieve better summarization performance than the existing methods. Moreover, the proposed scheme of term weighting can be used for keyword extraction, text classification and clustering and other information retrieval tasks.

同期刊论文项目
期刊论文 58 会议论文 18
同项目期刊论文
期刊信息
  • 《模式识别与人工智能》
  • 中国科技核心期刊
  • 主管单位:中国科学技术协会 中国自动化学会
  • 主办单位:国家智能计算机研究开发中心 中国科学院合肥智能机械研究所
  • 主编:郑南宁
  • 地址:安徽省合肥市蜀山湖路350号中国科学院合肥智能机械研究所
  • 邮编:230031
  • 邮箱:bjb@iim.cas.cn
  • 电话:0551-5591176
  • 国际标准刊号:ISSN:1003-6059
  • 国内统一刊号:ISSN:34-1089/TP
  • 邮发代号:26-69
  • 获奖情况:
  • 国内外数据库收录:
  • 被引量:10169