位置:成果数据库 > 期刊 > 期刊详情页
基于不平衡数据的中文情感分类
  • ISSN号:1003-0077
  • 期刊名称:中文信息学报
  • 时间:2012.6.6
  • 页码:33-37
  • 分类:TP391[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]苏州大学计算机科学与技术学院,江苏苏州215006
  • 相关基金:国家自然科学基金资助项目(90920004,61070123,61003153,60970056); 模式识别国家重点实验室开放课题基金资助项目; 江苏省自然科学基金资助项目(BK2008160); 江苏省高校自然科学重大基础研究资助项目(08KJA520002)
  • 相关项目:多文档事件信息融合方法的研究
中文摘要:

近些年来,情感分类在自然语言处理研究领域获得了显著的发展。然而,大部分已有的研究都假设参与分类的正类样本和负类样本一样多,而实际情况中正负类数据的分布往往是不平衡的。该文收集四个产品领域的中文评论文本,发现正类样本的数目远远多于负类样本。针对不平衡数据的中文情感分类,提出了一种基于欠采样和多分类算法的集成学习框架。在四个不同领域的实验结果表明,我们的方法能够显著提高分类性能,并明显优于目前主流的多种不平衡分类方法。

英文摘要:

Sentiment classification has undergone significant development in recent years.However,most existing studies assume the balance between the numbers of negative and positive samples,which may not be true in reality.In this paper,we collect product reviews from four domains and find that the positive samples are much more than negative ones.To handle the imbalanced classification in Chinese sentiment classification,we propose a novel approach to combine both sampling and classification algorithms under an ensemble learning framework.Evaluation across different domains shows the proposed approach performs better than several existing imbalanced classification methods.

同期刊论文项目
期刊论文 26 会议论文 13 专利 6
期刊论文 25 会议论文 13 专利 1
同项目期刊论文
期刊信息
  • 《中文信息学报》
  • 北大核心期刊(2011版)
  • 主管单位:中国科学技术协会
  • 主办单位:中国中文信息学会 中国科学院软件研究所
  • 主编:孙茂松
  • 地址:北京海淀中关村南四街4号中科院软件所
  • 邮编:100190
  • 邮箱:jcip@iscas.ac.cn
  • 电话:010-62562916
  • 国际标准刊号:ISSN:1003-0077
  • 国内统一刊号:ISSN:11-2325/N
  • 邮发代号:
  • 获奖情况:
  • 国内外数据库收录:
  • 日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版),中国北大核心期刊(2000版)
  • 被引量:9136