位置:成果数据库 > 期刊 > 期刊详情页
基于样本重要性原理的KNN文本分类算法
  • ISSN号:1000-5862
  • 期刊名称:江西师范大学学报(自然科学版)
  • 时间:2015.5.15
  • 页码:297-303+314
  • 分类:TP391[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]江西师范大学计算机信息工程学院,江西南昌330022
  • 相关基金:国家自然科学基金(61272212,61163006,61203313,61365002,61462045)资助项目.
  • 相关项目:大规模数据聚类的并行进化算法骨架研究
中文摘要:

KNN是重要数据挖掘算法之一,具有良好的文本分类性能。传统的KNN方法对所有样本权重看作相同,而忽略了不同样本对于分类贡献的不同。为了解决该个问题,提出了一种样本重要性原理,并在此基础上构造KNN分类器。应用随机游走算法识别类边界点,并计算出每个样本点的边界值,生成每个样本点的重要性得分,将样本重要性与KNN方法融合形成一种新的分类模型———SI-KNN。在中英文文本语料上的实验表明:改进的SI-KNN分类模型相比于传统的KNN方法有一定的提高。

英文摘要:

As one of the top ten data mining algorithms,KNN has good performance of text classification. All samples are treated as the same as its weight in the traditional KNN method,but the question that the different sample has the different contribution to the classification has been ignored. To solve the problem,a sample importance principals and KNN classifier constructed on the basis of this principle has been presented. Using the random walk algorithm to identify these samples near the class boundary,and calculate the boundary value of each sample. To generate the score of sample importance of each sample from the boundary value,combined sample importance with KNN method to form a new classification model. Experimental results show that the new SI-KNN classifier has some improvement compared to the traditional KNN method on the Chinese and English text corpus.

同期刊论文项目
同项目期刊论文
期刊信息
  • 《江西师范大学学报:自然科学版》
  • 北大核心期刊(2011版)
  • 主管单位:江西师范大学
  • 主办单位:江西师范大学
  • 主编:
  • 地址:南昌市紫阳大道99号
  • 邮编:330022
  • 邮箱:lk8506184@126.com
  • 电话:0791-88506814
  • 国际标准刊号:ISSN:1000-5862
  • 国内统一刊号:ISSN:36-1092/N
  • 邮发代号:44-56
  • 获奖情况:
  • 2009年中国高等学校自然科学学报研究会颁发“全国...,2009年被评为:第四届华东地区优秀期刊奖”,2008年教育部科技司授予“第2届中国高校优秀科技...,2008年江西省新闻出版局授予“第3届江西省优秀期...,2004年教育部科技司授予“全国高校优秀科技期刊二...
  • 国内外数据库收录:
  • 俄罗斯文摘杂志,美国化学文摘(网络版),美国数学评论(网络版),波兰哥白尼索引,德国数学文摘,美国剑桥科学文摘,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版)
  • 被引量:5205