位置:成果数据库 > 期刊 > 期刊详情页
一种改进的ML-kNN多标记文档分类方法
  • ISSN号:0367-6234
  • 期刊名称:《哈尔滨工业大学学报》
  • 时间:0
  • 分类:TP181[自动化与计算机技术—控制科学与工程;自动化与计算机技术—控制理论与控制工程]
  • 作者机构:[1]哈尔滨工业大学计算机科学与技术学院,哈尔滨150001
  • 相关基金:国家自然科学基金资助项目(61173087,61073128);黑龙江省自然科学基金资助项目(F201021).
中文摘要:

针对应用传统k近邻算法进行多标记文档分类时忽略了标记之间相关性的问题,提出了一种改进的ML—kNN多标记文档分类方法.针对文本特征的特点,采用一种基于KL散度的距离尺度来更好地描述文档相似度.根据近邻样本所属类别的统计信息,通过一种模糊最大化后验概率法则来推理未标记文档的标记集合.与ML—kNN不同的是,该方法可以有效地利用标记相关性来提升分类性能.在3个标准数据集上,5个多标记学习常用评测指标下的实验结果表明:所提方法在多标记文档分类问题上要明显优于ML—kNN、Rank,SVM和BoosTexter等主流多标记学习算法.

英文摘要:

Conventional kNN algorithms ignore label correlations when being applied to multi-label text categorization. To cover this shortage, an improved Multi-label kNN approach for text categorization is proposed. A specific distance metric based on KL divergence is derived to measure the similarity between individual documents. Based on statistical information gained from the label sets of neighboring documents, a fuzzy maximum a posteriori principle is utilized to conjecture the label sets of the unlabeled documents. Different from ML-kNN, the proposed approach can exploit label correlations to improve classification performance effectively. Experiments on three benchmark datasets using 5 popular multi-label evaluation metrics suggest that the proposed approach achieves superior performance to some well-established multi-label learning algorithms, such as ML-kNN, Rank-SVM and BoosTexter.

同期刊论文项目
同项目期刊论文
期刊信息
  • 《哈尔滨工业大学学报》
  • 中国科技核心期刊
  • 主管单位:中华人民共和国工业和信息化部
  • 主办单位:哈尔滨工业大学
  • 主编:冷劲松
  • 地址:哈尔滨市南岗区西大直街92号
  • 邮编:150001
  • 邮箱:
  • 电话:0451-86403427 86414135
  • 国际标准刊号:ISSN:0367-6234
  • 国内统一刊号:ISSN:23-1235/T
  • 邮发代号:14-67
  • 获奖情况:
  • 2000年获黑龙省科技期刊评比一等奖,中国期刊方阵“双效”期刊
  • 国内外数据库收录:
  • 美国化学文摘(网络版),美国数学评论(网络版),德国数学文摘,荷兰文摘与引文数据库,美国工程索引,美国剑桥科学文摘,日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版),中国北大核心期刊(2000版)
  • 被引量:27329