位置:成果数据库 > 期刊 > 期刊详情页
非平衡文本情感分类的数据集设计与评价指标
  • ISSN号:1003-5850
  • 期刊名称:电脑开发与应用
  • 时间:2013.5.25
  • 页码:1-4
  • 分类:TP311[自动化与计算机技术—计算机软件与理论;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]山西大学计算机与信息技术学院,太原030006, [2]山西大学计算智能与中文信息处理教育部重点实验室,太原030006
  • 相关基金:国家自然科学基金资助项目(60970014,61272095); 山西省自然科学基金资助项目(2010011021-1); 山西省科技攻关项目(20110321027-02)
  • 相关项目:基于文本观点挖掘的多对象评级理论与方法研究
中文摘要:

随着非平衡分类问题研究的深入,训练数据与测试数据如何划分成为一个值得思考的问题。针对非平衡文本情感分类数据集设计问题,通过下采样方法,对测试数据集设计了平衡与非平衡两种方案,给出了在不同任务需求下,选择相应的实验方案,并对验证分类器分类性能的评价指标进行了讨论。通过在真实的网络评论数据上的实验,验证了这些方案的合理性和适用性。

英文摘要:

With the deep researching of the imbalanced classification problems,how to divide the training data and test data has become a worth considering question.Aiming at the imbalanced text sentiment classification problems,this paper has studied both balanced and imbalanced test data with under sampling methods.Discussed in different mission requirements,how to choose a proper scheme and evaluation index to verify the performance of the classifier.The experiments results indicate that proposed schemes are reasonable and applicative on two real network reviews datasets.

同期刊论文项目
期刊论文 62 会议论文 2 获奖 2 专利 1
同项目期刊论文
期刊信息
  • 《电脑开发与应用》
  • 主管单位:中国兵器工业集团公司
  • 主办单位:中国北方自动控制技术研究所
  • 主编:李定主
  • 地址:太原市体育路351号
  • 邮编:030006
  • 邮箱:dnkf@chinajournal.net.cn
  • 电话:0351-8725025
  • 国际标准刊号:ISSN:1003-5850
  • 国内统一刊号:ISSN:14-1133/TP
  • 邮发代号:
  • 获奖情况:
  • 中国兵器工业集团优秀科技期刊二等奖,山西省一级(优秀)期刊
  • 国内外数据库收录:
  • 被引量:6860