位置:成果数据库 > 期刊 > 期刊详情页
一种基于Co—Training的海洋文献分类方法
  • ISSN号:1672-5174
  • 期刊名称:《中国海洋大学学报:自然科学版》
  • 分类:TP393[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]中国海洋大学计算机科学与技术系,山东青岛266100
  • 相关基金:国家自然科学基金项目(60602017);教育部“新世纪优秀人才支持计划”(NECT-07-0784);山东省优秀青年科学家科研奖励基金(2008BS01003)资助
中文摘要:

使用有监督机器学习方法进行海洋文献的分类往往存在人工标注量太大的缺点,针对这个问题,提出利用半监督机器学习中的协同训练(Co—training)方法来实现减小人工标注量的目标。该方法从2个View分别训练不同的分类器,在此基础上,根据少量有标注文档从大量无标注文档中获取有用信息,通过协同训练来提升2个分类器的性能,并训练出最终分类模型。实验结果表明,在人工标注仅2篇文献的条件下,该方法最终的分类性能十分接近需人工标注1500多篇文献的有监督分类器。这说明将Co-training方法应用于海洋文献分类可以大大减小人工标注量,并有着较为良好的分类性能。

英文摘要:

It always takes a large number of manual work to label marine papers when using supervised machine learning method. To address this issue, we take advantage of Co-training, which is a kind of semi-supervised learning method, for building the marine paper classification. We train two different clas- sifiers from two views. One view is made up of the feature set of abstract, and the other is made up of the feature sets of title, subject, major and class code. On this basis, we use a small initial labeled set to ob- tain useful information from a large set of unlabeled documents, and boost the performance of two classifi- ers by Co-training. Experiments shows that even if there are only 2 labeled samples in the training set, the F1 value and error rate of the classification system could reach about 85.88% and 14. 35%. They are close to the performance of supervised classifier (90. 20% and 9. 13%) which is trained by more than 1 500 labeled samples. These show that the application of Co-training on marine papers classification can significantly reduce the manual work, and also has well performance. Thus, it is very suitable for practi- cal applications.

同期刊论文项目
期刊论文 11 会议论文 8
同项目期刊论文
期刊信息
  • 《中国海洋大学学报:自然科学版》
  • 北大核心期刊(2011版)
  • 主管单位:中华人民共和国教育部
  • 主办单位:中国海洋大学
  • 主编:管华诗
  • 地址:青岛市松岭路238号
  • 邮编:266100
  • 邮箱:xbzrb@ouc.edu.cn
  • 电话:0532-82032256
  • 国际标准刊号:ISSN:1672-5174
  • 国内统一刊号:ISSN:37-1414/P
  • 邮发代号:24-31
  • 获奖情况:
  • 国内外数据库收录:
  • 俄罗斯文摘杂志,美国化学文摘(网络版),德国数学文摘,美国剑桥科学文摘,英国动物学记录,日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版)
  • 被引量:11624