位置:成果数据库 > 期刊 > 期刊详情页
一种利用近邻和信息熵的主动文本标注方法
  • ISSN号:1000-1239
  • 期刊名称:计算机研究与发展
  • 时间:0
  • 页码:1306-1312
  • 分类:TP18[自动化与计算机技术—控制科学与工程;自动化与计算机技术—控制理论与控制工程]
  • 作者机构:[1]北京交通大学计算机科学系,北京100044
  • 相关基金:中央高校基金科研业务费专项资金项目(2009YJS026);北京交通大学优秀博士生科技创新基金项目(141097522);国家自然科学基金项目(0905028,90820013,60875031)
  • 相关项目:文本语义模型和子空间聚类研究
中文摘要:

由于大规模标注文本数据费时费力,利用少量标注样本和大量未标注样本的半监督文本分类发展迅速.在半监督文本分类中,少量标注样本主要用来初始化分类模型,其合理性将影响最终分类模型的性能.为了使标注样本尽可能吻合原始数据的分布,提出一种避开选择已标注样本的K近邻来抽取下一组候选标注样本的方法,使得分布在不同区域的样本有更多的标注机会.在此基础上,为了获得更多的类别信息,在候选标注样本中选择信息熵最大的样本作为最终的标注样本.真实文本数据上的实验表明了提出方法的有效性.

英文摘要:

As it is quite time-consuming to label text documents on a large scale, a kind of text classification with a few labeled data is needed. Thus, semi-supervised text classification emerges and develops rapidly. Different from traditional classification, semi-supervised text classification only requires a small set of labeled data is us of labeled data and a large set of unlabeled data to ed to initialize the classification model in most case performance of the final classifier. In order to consistent with the distribution of the original dat the K nearest neighbors of the labeled data to be method, the data located in various regions will h order to obtain more eategory information from th information entropy of the candidate labeled data is chosen as the next datum to be labeled manual this approach is very effective. train a classifier. s. Its rationality The small set will affect the

同期刊论文项目
期刊论文 12 会议论文 18
期刊论文 12 会议论文 11
同项目期刊论文
期刊信息
  • 《计算机研究与发展》
  • 中国科技核心期刊
  • 主管单位:中国科学院
  • 主办单位:中国科学院计算技术研究所
  • 主编:徐志伟
  • 地址:北京市科学院南路6号中科院计算所
  • 邮编:100190
  • 邮箱:crad@ict.ac.cn
  • 电话:010-62620696 62600350
  • 国际标准刊号:ISSN:1000-1239
  • 国内统一刊号:ISSN:11-1777/TP
  • 邮发代号:2-654
  • 获奖情况:
  • 2001-2007百种中国杰出学术期刊,2008中国精品科...,中国期刊方阵“双效”期刊
  • 国内外数据库收录:
  • 俄罗斯文摘杂志,荷兰文摘与引文数据库,美国工程索引,日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版),中国北大核心期刊(2000版)
  • 被引量:40349