位置:成果数据库 > 期刊 > 期刊详情页
基于多线索混合词典的微博情绪识别
  • ISSN号:1673-629X
  • 期刊名称:计算机技术与发展
  • 时间:2014.7
  • 页码:28-32+36
  • 分类:TP391.1[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]南京航空航天大学计算机科学与技术学院,江苏南京210016
  • 相关基金:基金项目:国家自然科学基金青年科学基金项目(61202132);教育部高等学校博士学科点专项基金资助项目(20103218120024);校青年科创基金(NS2012073)
  • 相关项目:基于文本中关系相似性的蛋白质交互作用自动识别研究
作者: 潘明慧|牛耘|
中文摘要:

微博等社交媒体为人们情绪表达提供了重要平台,分析微博的情绪倾向具有重要的商业价值和社会意义。文中提出了基于词典的规则方法识别微博所表达的喜、哀、怒、惧、恶、惊六种情绪。针对情绪表达的重要线索表情符利用互信息法生成了表情符词典,与传统情绪词典相结合,制定了针对否定用法的规则对微博进行分析。建立了第一个包含六种情绪的人工标注微博数据集。实验表明,传统的情绪词典虽然收录了大量词汇,但对于社交媒体文本分析的准确率和覆盖率都不高。表情符词典的应用显著地提高了微博情绪分析的精度和覆盖率。

英文摘要:

The proliferation of micro-blogs has created a popular digital platform where people are able to express emotions and share feelings. Analysis of emotions in micro-blogs would be potentially beneficial to companies and the society. In this paper, a lexicon-based approach is proposed to identify six emotions in micro-blog text, including joy, sadness, anger, fear, disgust and surprise. A lexicon of emoticons is built based on the mutual information method between emoticons and emotions. Combined with a traditional emotion lexicon in this approach, negation rules are made to process negations in emotion expression to analyze mirco-blog. The first corpus of Chinese micro-blogs manually annotated with the six emotions is built as the test set. The experimental results show that the traditional lexicon has a moderate accuracy and coverage in analysis of micro-blog text. The combination of the two lexicons greatly improves the accuracy and coverage.

同期刊论文项目
同项目期刊论文
期刊信息
  • 《计算机技术与发展》
  • 中国科技核心期刊
  • 主管单位:陕西省工业和信息化厅
  • 主办单位:陕西省计算机学会
  • 主编:王守智
  • 地址:西安市雁塔路南段99号
  • 邮编:710054
  • 邮箱:ctad@vip.163.com
  • 电话:029-85522163
  • 国际标准刊号:ISSN:1673-629X
  • 国内统一刊号:ISSN:61-1450/TP
  • 邮发代号:52-127
  • 获奖情况:
  • 《CAJ-CD规范》执行优秀期刊
  • 国内外数据库收录:
  • 中国中国科技核心期刊
  • 被引量:21263