位置:成果数据库 > 期刊 > 期刊详情页
基于条件随机场模型和文本纠错的微博新词词性识别研究
  • ISSN号:0469-5097
  • 期刊名称:南京大学学报(自然科学版)
  • 时间:0
  • 页码:-
  • 分类:TP391[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]西安交通大学电子与信息工程学院,西安710049, [2]西安交通大学软件学院,西安710049, [3]西安交通大学管理学院,西安710049
  • 相关基金:国家自然科学基金(61202181); 博士后科学基金(2012M512006); 中央高校基本科研业务费专项资金(XJJ2013097)
  • 相关项目:基于查询词级联关系的高阶信息检索问题研究
中文摘要:

针对微博数据特点,采用降噪算法和条件随机场模型对微博数据进行词性标注,并对其中比重较大的谐音词使用贝叶斯方法进行词性二次纠正.首先利用新浪平台API和爬虫获取原始微博数据,再根据噪音特点人工制定规则进行降噪.由于条件随机场在中文词性标注中特征提取的优势,使用条件随机场模型对降噪后的微博语料词性标注.在此基础上,利用微博语料中谐音词比重较大的特点,将微博词语转化为拼音,根据贝叶斯方法计算得到谐音词的原生词候选,再根据词语的上下文建立谐音词和原生词映射,并利用原生词的词性已知的性质,对谐音词进行词性纠错.实验结果表明,该方法可以较好地标注微博未登录词,词性标注准确率达到95.23%.

英文摘要:

The purpose of this work is to solve the problem of microblog part-of-speech(POS)tagging.POS tagging of Chinese new word is a difficult,important and widely-studied sequence modeling problem.This paper describes a hybrid model that combines a rule-based model with linear-chain conditional random fields(CRFs)and Bayes algorithm for the task of POS tagging of Microblog unknown words.Firstly,microblog data are obtained by using Sina API and web spider.According to the features of microblog,a rule-based method is presented to reduce the impact of noisy data in POS tagging.Then,since CRFs has an advantage in feature extraction of POS tagging,it is used to obtain initial POS tags of microblog new words.We also present a probabilistic POS tagging method,which further improves performances.Homophonic words account for a large proportion of microblog new words.Because the pronunciation between homophonic words and its original words are similar or identical,Chinese Phonetic Alphabet is used to buildthe bridge between them.And the bridge is built by using Naive Bayes algorithm.Evaluation on microblog test set shows that this system could tag the new words of microblog in a better way,the best precision it achieves is95.23%.

同期刊论文项目
同项目期刊论文
期刊信息
  • 《南京大学学报:自然科学版》
  • 中国科技核心期刊
  • 主管单位:中华人民共和国教育部
  • 主办单位:南京大学
  • 主编:龚昌德
  • 地址:南京汉口路22号南京大学(自然科学版)编辑部
  • 邮编:210093
  • 邮箱:xbnse@netra.nju.edu.cn
  • 电话:025-83592704
  • 国际标准刊号:ISSN:0469-5097
  • 国内统一刊号:ISSN:32-1169/N
  • 邮发代号:28-25
  • 获奖情况:
  • 中国自然科学核心期刊,中国期刊方阵“双效”期刊
  • 国内外数据库收录:
  • 美国化学文摘(网络版),美国数学评论(网络版),德国数学文摘,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版),中国北大核心期刊(2000版)
  • 被引量:9316