位置:成果数据库 > 期刊 > 期刊详情页
对文本分类评测方法稳定性的研究
  • ISSN号:1003-6059
  • 期刊名称:《模式识别与人工智能》
  • 时间:0
  • 分类:TP391[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]北京大学网络与分布式系统实验室,北京100871
  • 相关基金:国家自然科学基金重点项目(No.60435020)、国家自然科学基金项目(No.60573166,60603056)资助
中文摘要:

文本分类算法一般采用宏平均精度、宏平均召回率以及宏平均F1值作为评价指标,然而同一个分类器在不同数据集上所得的评测数值往往存在很大差异,使得评测数值只在特定的数据集上有价值,而在其他数据集上没有意义,为了解决这个问题,本文提出3个因素来刻画数据集对分类结果的影响,并利用这3个因素构造一种评测指标newmacro—F1,这一评测指标将数据集的因素从评测过程中独立出来,使得newmacro-F1表示的仅仅是分类算法本身.实验结果表明使用该评测指标同一分类器在不同的数据集上波动较小.通过分类器在1个数据集上的表现,可以近似计算得到该分类器在另一个数据集上的分类质量.

英文摘要:

Macro average precision, macro average recall and macro average F1 are usually used to evaluate classification technique. But those measures are sensitive to the datasets which means the measures are only valid for specific dataset but invalid for the others. To solve this problem, three factors are proposed to describe how datasets affect the classification result. Then a new evaluation method of categorization called new-macro-F1 is presented according to the three factors. Experimental results show that the new measure remains stable on different datasets and through the performance of an algorithm on one dataset, the precision of other datasets could be estimated with the help of new measure.

同期刊论文项目
期刊论文 7 会议论文 2
同项目期刊论文
期刊信息
  • 《模式识别与人工智能》
  • 中国科技核心期刊
  • 主管单位:中国科学技术协会 中国自动化学会
  • 主办单位:国家智能计算机研究开发中心 中国科学院合肥智能机械研究所
  • 主编:郑南宁
  • 地址:安徽省合肥市蜀山湖路350号中国科学院合肥智能机械研究所
  • 邮编:230031
  • 邮箱:bjb@iim.cas.cn
  • 电话:0551-5591176
  • 国际标准刊号:ISSN:1003-6059
  • 国内统一刊号:ISSN:34-1089/TP
  • 邮发代号:26-69
  • 获奖情况:
  • 国内外数据库收录:
  • 被引量:10169