位置:成果数据库 > 期刊 > 期刊详情页
特征加权距离与软子空间学习相结合的文本聚类新方法
  • ISSN号:0254-4164
  • 期刊名称:计算机学报
  • 时间:0
  • 页码:1655-1665
  • 分类:TP311[自动化与计算机技术—计算机软件与理论;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]江南大学数字媒体学院,江苏无锡214122
  • 相关基金:本课题得到国家自然科学基金(60903100,60975027,61170122)、江苏省自然科学基金(BK2011417)、江苏“333高层次人才培养工程”(BRA2011142)、中央高校基本科研业务专项资金项目(JUSRP111A38)资助.
  • 相关项目:鲁棒的目标跟踪和识别新方法及在羽绒识别中的应用研究
中文摘要:

文本数据维数高、数据分布稀疏、不同类别的特征相互重叠,这为聚类分析提出了挑战.针对文本数据的这一特点,将特征加权技术与软子空间相结合,基于模糊聚类的算法框架,提出了一种适用于高维文本数据的软子空间模糊聚类新方法.首先,基于加权范数理论,提出了新的特征加权距离计算方法.接着,将其与软子空间学习的理论框架相结合,提出了面向模糊聚类的新的目标学习准则.通过向约束条件中引入熵指数r,从而扩展了模糊指数m的取值范围,并给出了物理解释.基于Zangwill收敛定理对算法的全局收敛性给出理论证明.实验表明,文中算法可以使软子空间学习和聚类分析同时进行,其性能比现有的相关算法有了较大的提高.

英文摘要:

The text data are characterized by high dimensionality and feature overlapping among different clusters, which is a great challenge for the real-world data mining applications. This paper proposes a novel fuzzy clustering algorithm by integrating the feature weighting metric into the framework of soft subspace learning. Firstly, the feature weighting metric is presented based on the concept of vector norm. Then a novel learning criterion is proposed based on the combination of feature weighting metric and soft subspace clustering. An entropy exponent r is intro- duced into the constraints so that the span of the fuzzy index m is extended. A physical explanation from the view of the information theory is given. A global convergence theory is also estab- lished by applying Zangwill's convergence theorem. At last, experiments are conducted on both synthesis and real text data and the experimental results show that the proposed algorithm can perform tasks of clustering analysis and soft subspace learning simultaneously and obtain better results than some of the existing approaches.

同期刊论文项目
同项目期刊论文
期刊信息
  • 《计算机学报》
  • 北大核心期刊(2011版)
  • 主管单位:中国科学院
  • 主办单位:中国计算机学会 中国科学院计算技术研究所
  • 主编:孙凝晖
  • 地址:北京中关村科学院南路6号
  • 邮编:100190
  • 邮箱:cjc@ict.ac.cn
  • 电话:010-62620695
  • 国际标准刊号:ISSN:0254-4164
  • 国内统一刊号:ISSN:11-1826/TP
  • 邮发代号:2-833
  • 获奖情况:
  • 中国期刊方阵“双效”期刊
  • 国内外数据库收录:
  • 美国数学评论(网络版),荷兰文摘与引文数据库,美国工程索引,美国剑桥科学文摘,日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版),中国北大核心期刊(2000版)
  • 被引量:48433