位置:成果数据库 > 期刊 > 期刊详情页
一种基于语料特性的聚类算法
  • ISSN号:1000-9825
  • 期刊名称:软件学报
  • 时间:2010.11.11
  • 页码:2802-2813
  • 分类:TP18[自动化与计算机技术—控制科学与工程;自动化与计算机技术—控制理论与控制工程]
  • 作者机构:[1]中国科学院计算技术研究所网络重点实验室,北京100190, [2]中国科学院研究生院,北京100049
  • 相关基金:Supported by the National Natural Science Foundation of China under Grant No.60933005 (国家自然科学基金); the National Basic Research Program of China under Grant Nos.2007CB311100, 2004CB318109 (国家重点基础研究发展计划(973)); the National High-Tech Research and Development Plan of China under Grant No.2007AA01Z441 (国家高技术研究发展计划(863))
  • 相关项目:Web搜索与挖掘的新理论和新方法—支持舆情监控的Web搜索与挖掘的理论与方法研究
中文摘要:

为寻求模型不匹配问题的一种恰当的解决途径,提出了基于语料分布特性的CADIC(clustering algorithm based on the distributions of intrinsic clusters)聚类算法.CADIC以重标度的形式隐式地将语料特性融入算法框架,从而使算法模型具备更灵活的适应能力.在聚类过程中,CADIC选择一组具有良好区分度的方向构建CADIC坐标系,在该坐标系下统计固有簇的分布特性,以构造各个坐标轴的重标度函数,并以重标度的形式对语料分布进行隐式的归一化,从而提高聚类决策的有效性.CADIC以迭代的方式收敛到最终解,其时间复杂度与K-means保持在同一量级.在国际知名评测语料上的实验结果表明,CADIC算法的基本框架是合理的,其聚类性能与当前领先水平的聚类算法相当.

英文摘要:

In finding a flexible approach to solve the model misfit problem,a clustering algorithm based on the distributions of intrinsic clusters(CADIC) is proposed,which implicitly integrates distribution characteristics into the clustering framework by applying rescaling operations.In the clustering process,a set of discriminative directions are chosen to construct the CADIC coordinate,under which the distribution characteristics are analyzed in order to design rescaling functions.Along every axis,rescaling functions are applied to implicitly normalize the data distribution such that more reasonable clustering decisions can be made.As a result,the reliability of clustering decisions is improved.The time complexity of CADIC remains the same as K-means by using a K-means-like iteration strategy.Experiments on well-known benchmark evaluation datasets show that the framework of CADIC is reasonable,and its performance in text clustering is comparable to that of state-of-the-art algorithms.

同期刊论文项目
同项目期刊论文
期刊信息
  • 《软件学报》
  • 北大核心期刊(2011版)
  • 主管单位:中国科学院
  • 主办单位:中国科学院软件研究所 中国计算机学会
  • 主编:赵琛
  • 地址:北京8718信箱中国科学院软件研究所
  • 邮编:100190
  • 邮箱:jos@iscas.ac.cn
  • 电话:010-62562563
  • 国际标准刊号:ISSN:1000-9825
  • 国内统一刊号:ISSN:11-2560/TP
  • 邮发代号:82-367
  • 获奖情况:
  • 2001年入选中国期刊方阵“双百期刊”,2000年荣获中国科学院优秀科技期刊一等奖
  • 国内外数据库收录:
  • 俄罗斯文摘杂志,美国数学评论(网络版),波兰哥白尼索引,德国数学文摘,荷兰文摘与引文数据库,美国工程索引,美国剑桥科学文摘,英国科学文摘数据库,日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版),中国北大核心期刊(2000版)
  • 被引量:54609