位置:成果数据库 > 期刊 > 期刊详情页
选取最大可能预测错误样例的主动学习算法
  • ISSN号:1000-1239
  • 期刊名称:计算机研究与发展
  • 时间:0
  • 页码:419-431
  • 语言:中文
  • 分类:TP181[自动化与计算机技术—控制科学与工程;自动化与计算机技术—控制理论与控制工程]
  • 作者机构:[1]国防科学技术大学计算机学院,长沙410073
  • 相关基金:国家自然科学基金项目(60603015,60603062);湖南省自然科学基金项目(06jj30035)
  • 相关项目:基于网络测量的网络态势感知关键技术研究
中文摘要:

通过选取并提交专家标注最有信息量的样例,主动学习算法中可以有效地减轻标注大量未标注样例的负担.采样是主动学习算法中一个影响性能的关键因素.当前主流的采样算法往往考虑选取的样例尽可能平分版本空间.但这一方法假定版本空间中的每一假设都具有相同的概率成为目标函数,而这在真实世界问题中不可能满足.分析了平分版本策略的局限性.进而提出一种旨在尽可能最大限度减小版本空间的启发式采样算法MPWPS(the most possibly wrong-predicted sampling),该算法每次采样时选取当前分类器最有可能预测错误的样例,从而淘汰版本空间中多于半数的假设.这种方法使分类器在达到相同的分类正确率时,采样次数比当前主流的针对平分版本空间的主动学习算法采样次数更少.实验表明,在大多数数据集上,当达到相同的目标正确率时,MPWPS方法能够比传统的采样算法采样次数更少.

英文摘要:

Active learning methods can alleviate the efforts of labeling large amounts of instances by selecting and asking experts to label only the most informative examples. Sampling is a key factor influencing the performance of active learning. Currently, the leading methods of sampling generally choose the instance or instances that can reduce the version space by half. However, the strategy of halving the version space assumes each hypothesis in version space has equal probability to be the target function which can not be satisfied in real world problems. In this paper, the limitation of the strategy of halving the version space is analyzed. Then presented is a sampling method named MPWPS (the most possibly wrongpredicted sampling) aiming to reduce the version space more than half. While sampling, MPWPS chooses the instance or instances that would be most likely to be predicted wrong by the current classifier, so that more than half of hypotheses in the version space are eliminated. Comparing the proposed MPWPS method and the existing active learning methods, when the classifiers achieve the same accuracy, the former method will sample fewer times than the latter ones. The experiments show that the MPWPS method samples fewer instances than traditional sampling methods on most datasets when obtaining the same target accuracy.

同期刊论文项目
期刊论文 44 会议论文 20 获奖 4
期刊论文 24 会议论文 33 专利 1
同项目期刊论文
期刊信息
  • 《计算机研究与发展》
  • 中国科技核心期刊
  • 主管单位:中国科学院
  • 主办单位:中国科学院计算技术研究所
  • 主编:徐志伟
  • 地址:北京市科学院南路6号中科院计算所
  • 邮编:100190
  • 邮箱:crad@ict.ac.cn
  • 电话:010-62620696 62600350
  • 国际标准刊号:ISSN:1000-1239
  • 国内统一刊号:ISSN:11-1777/TP
  • 邮发代号:2-654
  • 获奖情况:
  • 2001-2007百种中国杰出学术期刊,2008中国精品科...,中国期刊方阵“双效”期刊
  • 国内外数据库收录:
  • 俄罗斯文摘杂志,荷兰文摘与引文数据库,美国工程索引,日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版),中国北大核心期刊(2000版)
  • 被引量:40349