位置:成果数据库 > 期刊 > 期刊详情页
词典与机器学习方法相结合的维吾尔语文本情感分析
  • ISSN号:1003-0077
  • 期刊名称:《中文信息学报》
  • 时间:0
  • 分类:TP391[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]新疆大学信息科学与工程学院新疆多语种重点实验室,新疆乌鲁木齐830046, [2]伊犁师范学院电子与信息工程学院,新疆伊宁835000
  • 相关基金:国家“973”重点基础研究计划基金(2014CB340506);国家自然科学基金(61363063);新疆大学多语种重点实验室开放课题(XJDX0905-2013-02)
中文摘要:

随着互联网整体水平的提高,大量基于维吾尔文的网络信息不断建立,引起了对不同领域的信息进行情感倾向性分析的迫切需要。该文考虑到维吾尔文没有足够的情感训练语料和完整的情感词典,结合机器学习方法和词典方法的优点,构建一个分类器模型LCUSCM(Lexicon-based and Corpus-based Uyghur Text Sentiment Classification Model),先用自己构建的维吾尔文情感词典对语料进行高质量的情感分类,分类过程中对词典进行递归扩充,再根据每条句子的情感得分,从词典分类的结果中选择一部分语料来训练一个分类器并改进第一步的分类结果。此方法的正确率比单独使用机器学习方法提高了9.13%,比词典方法提高了1.82%。

英文摘要:

With the development of the Internet, a large number of online Uyghur texts appeared, which demands sentiment analysis for different applications. Considering there are not neither enough training data nor a complete sentiment lexicon for Uyghur sentiment analysis, this paper combines the Lexicon-based method with Corpus-based method, proposing a so-called LCUSCM (Lexicon-based and Corpus-based Uyghur Text Sentiment Classification Model). It first classifies the text by using a manual-built Uyghur sentiment dictionary, with the lexicon is enriched incrementally in this process. Then, the reliable classified sentences are selected to train a classifier so as to refine the results of the first step. The accuracy of the hybrid method increased 9.13% than using machine learning meth- od, and 1.82% than the lexicon based method.

同期刊论文项目
同项目期刊论文
期刊信息
  • 《中文信息学报》
  • 北大核心期刊(2011版)
  • 主管单位:中国科学技术协会
  • 主办单位:中国中文信息学会 中国科学院软件研究所
  • 主编:孙茂松
  • 地址:北京海淀中关村南四街4号中科院软件所
  • 邮编:100190
  • 邮箱:jcip@iscas.ac.cn
  • 电话:010-62562916
  • 国际标准刊号:ISSN:1003-0077
  • 国内统一刊号:ISSN:11-2325/N
  • 邮发代号:
  • 获奖情况:
  • 国内外数据库收录:
  • 日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版),中国北大核心期刊(2000版)
  • 被引量:9136