位置:成果数据库 > 期刊 > 期刊详情页
领域实例迁移的交互文本非平衡情感分类方法
  • ISSN号:0253-987X
  • 期刊名称:《西安交通大学学报》
  • 时间:0
  • 分类:TP391.1[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]西安交通大学陕西省天地网技术重点实验室,西安710049, [2]西安交通大学电子与信息工程学院,西安710049, [3]考文垂大学计算机科学与技术系,英国考文垂CVI2JH
  • 相关基金:国家自然科学基金资助项目(61472315); 国家科技支撑计划资助项目(2013BAK09B01); 教育部“创新团队发展计划”资助项目(IRT13035); 国家留学基金资助项目(20133018)
中文摘要:

针对交互文本句子短、成分缺失、多领域下类分布不均衡导致的高维、特征值稀疏、正样本稀少的难点,提出面向目标数据集实例迁移的数据层面采样方法。该方法提出目标数据集和源数据集共性特征的Top-N信息增益和值占比函数,选择评价两个数据集实例相似度的特征;提出目标数据集和源数据集特征空间一致性处理方法,克服两者特征空间不一致的问题;提出分领域的实例选取与迁移方法,克服多领域下的类分布不均衡问题。实验结果表明:该方法有效缓解了交互文本的非平衡问题,使支持向量机、随机森林、朴素贝叶斯、随机委员会4个经典分类算法的加权平均的接收者运行特征曲线(receiver operating characteristic,ROC)指标提升了11.3%。

英文摘要:

A data level sampling method of target dataset-oriented instance transfer is proposed to solve the problem that the characteristics of interactive texts such as short sentences,missing parts of sentences and unbalanced class distribution in multiple-domains result in difficulties of high dimension,sparse eigenvalue in feature space and lack of positive instances.A function is employed to choose features for evaluating the instance similarity between source and target datasets.The function calculates the sum of the information gains of Top-N common features of these two datasets and their proportions in the sum.Moreover,a homogenization processing method is presented for feature spaces of the target dataset and the source dataset to overcome the feature spaces inconsistency between these two datasets.A method for selecting and transferring instances from a domain of source dataset to the corresponding one of target dataset is adopted to solve the problem of unbalanced class distribution in multiple domains.Experimental results show that the proposed method effectively alleviates the unbalanced problem in target dataset.The proposed method running with four classic classification methods,i.e.support vector machine,random forest,naive Bayes,and random committee,results in an 11.3%improvement in average of weighted receiver operating characteristic curve(ROC).

同期刊论文项目
同项目期刊论文
期刊信息
  • 《西安交通大学学报》
  • 中国科技核心期刊
  • 主管单位:中华人共和国教育部
  • 主办单位:西安交通大学
  • 主编:陶文铨
  • 地址:西安市咸宁西路28号
  • 邮编:710049
  • 邮箱:xuebao@mail.xjtu.edu.cn
  • 电话:029-82668337 82667978
  • 国际标准刊号:ISSN:0253-987X
  • 国内统一刊号:ISSN:61-1069/T
  • 邮发代号:52-53
  • 获奖情况:
  • 美国《工程索引》(EI光盘版)定期收录的中文期刊,《中文核心期刊目录总览》综合类核心期刊,科技部《科技论文统计与分析》统计源,《中国科学引文数据库》刊源,获全国高校优秀科技期刊一等奖,“百种中国杰出学术期刊”称号,中国期刊方阵“双效”期刊
  • 国内外数据库收录:
  • 美国化学文摘(网络版),美国数学评论(网络版),德国数学文摘,荷兰文摘与引文数据库,美国工程索引,美国剑桥科学文摘,英国科学文摘数据库,日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版),中国北大核心期刊(2000版)
  • 被引量:27275