位置:成果数据库 > 期刊 > 期刊详情页
基于领域本体的文本资料聚类算法改进研究
  • ISSN号:1007-7634
  • 期刊名称:情报科学
  • 时间:2013.6.5
  • 页码:129-134
  • 分类:G254[文化科学—图书馆学]
  • 作者机构:[1]湖南大学工商管理学院,湖南长沙410079
  • 相关基金:国家自然科学基金(71201052); 湖南大学青年教师基金项目
  • 相关项目:基于语义的上市公司年报文本信息质量测度方法及应用
中文摘要:

针对由领域本体匹配产生的文本特征矩阵,描述了一种基于改进相似度计算公式的文本资料聚类算法。实验证明,当我们以生物医药领域的文本作为实验样本时,不管是从熵值还是从纯度来考虑,基于领域本体改进的聚类算法都要优于K-means算法和凝聚层次聚类算法。

英文摘要:

This paper describes a new clustering method for texts based on an improved similarity calcula tion formula for text feature matrix which is generated by domain ontology matching.The experiment shows that: when they use texts in the field of bio-medicine as the experimental samples,the new cluster ing method for texts based on an improved similarity calculation formula is better than the K-means clus tering method and agglomerative hierarchical clustering method from entropy and purity considerations.

同期刊论文项目
同项目期刊论文
期刊信息
  • 《情报科学》
  • 北大核心期刊(2011版)
  • 主管单位:国家教育部
  • 主办单位:中国科学技术情报学会 吉林大学
  • 主编:靖继鹏
  • 地址:长春市人民大街5988号
  • 邮编:130022
  • 邮箱:infosci@jlu.edu.cn
  • 电话:0431-85095200
  • 国际标准刊号:ISSN:1007-7634
  • 国内统一刊号:ISSN:22-1264/G2
  • 邮发代号:12-174
  • 获奖情况:
  • 全国中文核心期刊,2001年被评为吉林省科技类一级期刊
  • 国内外数据库收录:
  • 日本日本科学技术振兴机构数据库,中国中国人文社科核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版),中国北大核心期刊(2000版)
  • 被引量:36930