东篱科研大数据发现系统（DRDS）

欢迎您！东篱公司退出

申报数据库
1. 申报指南
立项数据库
成果数据库
1. 期刊论文
2. 会议论文
3. 著作
4. 专利
项目获奖数据库

位置：成果数据库 > 期刊 > 期刊详情页

基于不平衡数据的中文情感分类

ISSN号：1003-0077
期刊名称：中文信息学报
时间：2012.6.6
页码：33-37
分类：TP391[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
作者机构：[1]苏州大学计算机科学与技术学院,江苏苏州215006
相关基金：国家自然科学基金资助项目（90920004,61070123,61003153,60970056）; 模式识别国家重点实验室开放课题基金资助项目; 江苏省自然科学基金资助项目（BK2008160）; 江苏省高校自然科学重大基础研究资助项目（08KJA520002）
相关项目：多文档事件信息融合方法的研究

作者：王中卿|李寿山|朱巧明|李培峰|周国栋|

关键词：情感分类, 不平衡分类, 集成学习, sentiment classification, imbalanced classification, ensemble learning

中文摘要：

近些年来,情感分类在自然语言处理研究领域获得了显著的发展。然而,大部分已有的研究都假设参与分类的正类样本和负类样本一样多,而实际情况中正负类数据的分布往往是不平衡的。该文收集四个产品领域的中文评论文本,发现正类样本的数目远远多于负类样本。针对不平衡数据的中文情感分类,提出了一种基于欠采样和多分类算法的集成学习框架。在四个不同领域的实验结果表明,我们的方法能够显著提高分类性能,并明显优于目前主流的多种不平衡分类方法。

英文摘要：

Sentiment classification has undergone significant development in recent years.However,most existing studies assume the balance between the numbers of negative and positive samples,which may not be true in reality.In this paper,we collect product reviews from four domains and find that the positive samples are much more than negative ones.To handle the imbalanced classification in Chinese sentiment classification,we propose a novel approach to combine both sampling and classification algorithms under an ensemble learning framework.Evaluation across different domains shows the proposed approach performs better than several existing imbalanced classification methods.

同期刊论文项目

基于配价结构和话题结构的汉语句法分析和语义计算模型研究

期刊论文 52 会议论文 32 获奖 2

中文句法分析与语义角色标注的联合学习机制研究

期刊论文 48 会议论文 7 专利 2

多文档事件信息融合方法的研究

期刊论文 26 会议论文 13 专利 6

基于句法结构和语义信息的指代消解研究

期刊论文 25 会议论文 13 专利 1

同项目期刊论文

语义分析与词频统计相结合的中文文本相似度量方法研究

基于网页文本依存特征的人名消歧

基于CRFs和跨事件的事件识别研究

一种基于LDA模型的主题句抽取方法

不平衡情感分类中的特征选择方法研究

语料对中文名词短语指代消解影响研究

基于情绪词与情感词协作学习的情感分类方法研究

基于状态和行为描述的情感分类方法

面向半监督情感分类的特征选择方法研究

一种基于LDA模型的主题句抽取方法

基于树核函数的中英文代词消解

语料对中文名词短语指代消解影响研究

中英文指代消解中待消解项识别的研究

基于规则的中文缺省识别研究

基于SVM的中文名词短语指代消解研究

基于机器学习方法的英文事件代词消解研究

基于PDTB的自动显式篇章分析器

基于双语依存关系映射的中英文词表构建研究

中文名词性谓词语义角色标注

基于卷积树核的无指导中文实体关系抽取研究

基于树核的隐式篇章关系识别研究

Kernel-Based Semantic Relation Detection and Classification via Enriched Parse Tree Structure

基于集成学习的半监督情感分类方法研究

基于平行论元的隐式篇章关系推理研究

基于线索树双层聚类的微博话题检测

基于功能连接词的隐式篇章关系推理

一种无指导的隐式篇章关系推理方法研究

语义分析与词频统计相结合的中文文本相似度量方法研究

一种基于LDA模型的主题句抽取方法

基于情绪词的非监督中文情感分类方法研究

基于核心词和实体推理的事件关系识别方法

语料对中文名词短语指代消解影响研究

话题跟踪中静态和动态话题模型的核捕捉衰减

一种新型最优检索结果的发现与论证

基于全局用户意图的评论自动估价方法研究

基于树核的隐式篇章关系识别

基于动态自适应语言模型的中文输入系统的设计与实现

一种基于改进的K-means算法的人名消歧系统的设计与实现

一个基于分层的网页文本过滤系统

基于IP Queue的实时网页过滤系统的设计与实现

基于条件随机场的无监督中文词性标注

一种基于特征的程序可并行点发现方法

一种改进的TFIDF网页关键词提取方法

基于树核函数的中文语义角色分类研究

一种基于二元模型的分层文本过滤方法

一种基于LDA和上下文摘要的Web人名消歧方法

Linux平台下基于SCIM的中文输入法设计与实现

事件信息抽取中的数据预处理方法研究

基于IPQueue实时网页还原系统的设计与实现

基于质心迁移的领域适应性情感分类

一种面向主题的关键词查询扩展方法

基于IPQueue的即时通信协议还原系统的设计与实现

中文语义角色标注的树核空间研究

面向冗余度控制的中文多文档自动文摘

英语语篇结构分析研究综述

事件关系检测的语言学资源、评测及研究综述

中文名词性谓词语义角色标注

基于可信度模型的中文人名识别研究

基于规则的中文零指代项识别研究

基于树核函数的“it”待消解项识别研究

基于树核函数的中文零指代项识别研究

基于可信度模型的中文人名识别研究

指代消解中代词待消解项识别研究

Learning Noun Phrase Anaphoricity in Coreference Resolution via Label Propagation

基于机器学习方法的事件指代消歧研究

基于集成学习的半监督情感分类方法研究

依存信息在蛋白质关系抽取中的作用

基于查询扩展的人名消歧

无监督中文名词短语指代消解研究

细粒度科技论文摘要句子分类方法

基于ＳＶＭ的中文名词短语指代消解研究

基于评价对象类别的跨领域情感分类方法研究

基于情绪词的非监督中文情感分类方法研究

中文事件事实性信息语料库的构建方法

Improving Syntactic Parsing of Chinese with Empty Element Recovery

Using compositional semantics and discourse consistency to improve Chinese trigger identification

基于跨事件理论的缺失事件角色填充研究

基于集成学习的半监督情感分类方法研究

基于卷积树核的无指导中文实体关系抽取研究

Kernel-Based Semantic Relation Detection and Classification via Enriched Parse Tree Structure

依存信息在蛋白质关系抽取中的作用

基于集成学习的半监督情感分类方法研究

基于功能连接词的隐式篇章关系推理

一种基于LDA模型的主题句抽取方法

Learning Noun Phrase Anaphoricity in Coreference Resolution via Label Propagation

基于可信度模型的中文人名识别研究

基于树核函数的中英文代词消解

Tree kernel-based protein-protein interaction extraction from biomedical literature

基于双语约束的蒙古语无监督依存分析

最大熵和规则相结合的藏文句子边界识别方法

语料对中文名词短语指代消解影响研究

中英文指代消解中待消解项识别的研究

Toward a unified framework for standard and update multi-document summarization

话题跟踪中静态和动态话题模型的核捕捉衰减

一种新型最优检索结果的发现与论证

基于机器学习方法的英文事件代词消解研究

基于语义场景的隐式篇章关系检测方法

平行推理机制：一种隐式篇章关系检测方法

基于树核的隐式篇章关系识别

基于单文本指代消解的人物家庭网络构建研究

基于HITS算法的双语句对挖掘优化方法

基于动态自适应语言模型的中文输入系统的设计与实现

一种基于改进的K-means算法的人名消歧系统的设计与实现

一个基于分层的网页文本过滤系统

基于IP Queue的实时网页过滤系统的设计与实现

一种基于特征的程序可并行点发现方法

一种改进的TFIDF网页关键词提取方法

基于树核函数的中文语义角色分类研究

一种基于二元模型的分层文本过滤方法

一种基于LDA和上下文摘要的Web人名消歧方法

Linux平台下基于SCIM的中文输入法设计与实现

基于IPQueue实时网页还原系统的设计与实现

基于质心迁移的领域适应性情感分类

一种面向主题的关键词查询扩展方法

基于IPQueue的即时通信协议还原系统的设计与实现

英语语篇结构分析研究综述

基于双语依存关系映射的中英文词表构建研究

基于机器翻译的跨语言关系抽取

《同义词词林》在中文实体关系抽取中的作用

基于跨场景推理的事件关系检测方法

依存树到串模型中引入双语短语的三种方法

期刊信息

《中文信息学报》
北大核心期刊（2011版）

主管单位:中国科学技术协会
主办单位:中国中文信息学会中国科学院软件研究所
主编：孙茂松
地址：北京海淀中关村南四街4号中科院软件所
邮编：100190
邮箱：jcip@iscas.ac.cn
电话：010-62562916

国际标准刊号：ISSN：1003-0077
国内统一刊号：ISSN：11-2325/N
邮发代号:

获奖情况:

国内外数据库收录:
日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊（2004版）,中国北大核心期刊（2008版）,中国北大核心期刊（2011版）,中国北大核心期刊（2014版）,中国北大核心期刊（2000版）

被引量:9136