位置:成果数据库 > 期刊 > 期刊详情页
一种基于复杂网络特征的中文文档关键词抽取算法
  • ISSN号:1003-6059
  • 期刊名称:《模式识别与人工智能》
  • 时间:0
  • 分类:TP181[自动化与计算机技术—控制科学与工程;自动化与计算机技术—控制理论与控制工程]
  • 作者机构:[1]中国科学技术大学计算机科学与技术系,合肥230027, [2]安徽大学计算智能与信号处理教育部重点实验室,合肥230039
  • 相关基金:国家自然科学基金(No.70171052)、安徽省自然科学基金(No.2004kj011)资助项目
中文摘要:

关键词抽取是自然语言理解领域中的重要技术之一.本文研究汉语语言所组成的自然语言网络中的复杂网络特性,并根据语言网络中的“小世界”特性和近两年复杂网络研究中部分新的理论成果,提出基于复杂网络特征的中文文档关键词抽取算法.该算法根据文档语言网络中单词结点的复杂网络特征值进行关键词抽取.实验结果表明,本文算法抽取关键词所获得的平均准确率要高于TFIDF关键词抽取算法所获得的平均准确率.

英文摘要:

Automatic keyword extraction is one of the most important techniques in natural language processing. In this paper, features of complex networks composed of Chinese are studied. A novel automatic keyword extraction algorithm for Chinese document is proposed which is based on the features of the complex networks according to the small world structure in language networks and'the theoretical achievements in complex networks. It extracts keyword based on the feature values of the word nodes in a documental language network. Experimental results show the proposed algorithm obtains higher average precision compared with the keyword extraction algorithm based on TFIDF.

同期刊论文项目
同项目期刊论文
期刊信息
  • 《模式识别与人工智能》
  • 中国科技核心期刊
  • 主管单位:中国科学技术协会 中国自动化学会
  • 主办单位:国家智能计算机研究开发中心 中国科学院合肥智能机械研究所
  • 主编:郑南宁
  • 地址:安徽省合肥市蜀山湖路350号中国科学院合肥智能机械研究所
  • 邮编:230031
  • 邮箱:bjb@iim.cas.cn
  • 电话:0551-5591176
  • 国际标准刊号:ISSN:1003-6059
  • 国内统一刊号:ISSN:34-1089/TP
  • 邮发代号:26-69
  • 获奖情况:
  • 国内外数据库收录:
  • 被引量:10169