位置:成果数据库 > 期刊 > 期刊详情页
基于特征权重量化的相似度计算方法
  • ISSN号:0254-4164
  • 期刊名称:《计算机学报》
  • 时间:0
  • 分类:TP18[自动化与计算机技术—控制科学与工程;自动化与计算机技术—控制理论与控制工程]
  • 作者机构:[1]哈尔滨工业大学管理学院,哈尔滨150001, [2]哈尔滨工业大学计算机科学与技术学院,哈尔滨150001
  • 相关基金:国家自然科学基金青年基金(61300114); 高等学校博士学科点专项科研基金(20132302120047); 中国博士后科学基金特别项目(2014T70340);中国博士后科学基金面上项目(2013M530156); 中央高校基本科研业务费专项资金(HIT.NSRIF.2013066); CCF-腾讯犀牛鸟基金资助~~
中文摘要:

随着信息产业的迅猛发展,聚类的无监督特性使其成为一种极为有效的分析工具.而为获得良好的聚类结果,有效及准确的相似度计算方法是其必备的前提条件.事实上,在描述数据相似度时,不同的特征显然具有不同的作用,因此有必要借助一些先验知识,例如用户提供的限制数据,来衡量特征的重要性,并将其应用于相似度计算中以获取更加准确的计算结果.传统的特征权值量化方法均忽视了两点问题:(1)限制数据在特征空间中极有可能为非均匀分布;(2)限制数据可能包含不一致性.上述问题的存在使得传统的权值量化方法无法获得准确的结果甚至无法运行.基于此,文中提出了一种新颖的特征权值量化方法用以处理上述两点问题:(1)将限制数据划分为若干个等价类,进而通过计算参数"分布系数"来均匀化数据的分布;(2)将限制数据连接为无向图,进而通过计算参数"置信度"来衡量及弱化限制数据的不一致性.之后将这两个参数结合到特征权值量化函数中以获得准确的相似度计算结果.实验结果显示:该特征权值量化方法能够结合限制数据来获取不同特征对相似度计算的贡献能力,并能应用于任何聚类算法中以提高聚类的准确度.

英文摘要:

Along with high-speed advance of information technology,the unsupervised characteristic of clustering makes itself an effective implement for data analysis.To acquire high clustering performance,the effective and precise similarity calculation plays a prime and necessary role for clustering algorithms.Owing to the fact that different features have diverse contributions to describe similarity among data,it is necessary to assess feature's contribution by means of some transcendental knowledge(e.g.constrained data provided by users),and import it in similarity measurement to acquire more precise calculating results.Unfortunately,conventional weight evaluating methods all fail to consider two challenges:(1)high possibility of asymmetrical distribution of constrained data in feature space;(2)high possibility of inconsistency contained by constrained data.Previous two issues disable conventional weight evaluating methods to acquire high precision,and even make them unable to work.Hence,this paper proposes a novel constraint based weight evaluating method to deal with them.For the former one,constrained data are partitioned into several equivalent classes,and distributing parameters are assigned to them to balance theirdistributions.For the latter one,constrained data are connected to form an undirected graph,and belief values are thereby computed to measure and reduce their possibilities to be inconsistent.Finally,these two parameters are integrated in weight evaluating function to form an accurate similarity measurement.Experimental results demonstrate that,this weight evaluating method can combine constrained data to obtain diverse contributions of different features to similarity calculation,and can be applied in any clustering algorithm to improve its precision.

同期刊论文项目
同项目期刊论文
期刊信息
  • 《计算机学报》
  • 北大核心期刊(2011版)
  • 主管单位:中国科学院
  • 主办单位:中国计算机学会 中国科学院计算技术研究所
  • 主编:孙凝晖
  • 地址:北京中关村科学院南路6号
  • 邮编:100190
  • 邮箱:cjc@ict.ac.cn
  • 电话:010-62620695
  • 国际标准刊号:ISSN:0254-4164
  • 国内统一刊号:ISSN:11-1826/TP
  • 邮发代号:2-833
  • 获奖情况:
  • 中国期刊方阵“双效”期刊
  • 国内外数据库收录:
  • 美国数学评论(网络版),荷兰文摘与引文数据库,美国工程索引,美国剑桥科学文摘,日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版),中国北大核心期刊(2000版)
  • 被引量:48433