位置:成果数据库 > 期刊 > 期刊详情页
中文微博命名体识别
  • ISSN号:0490-6756
  • 期刊名称:《四川大学学报:自然科学版》
  • 时间:0
  • 分类:TP391[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]四川民族学院计算机科学系,康定626001, [2]四川大学计算机学院,成都610065
  • 相关基金:国家自然科技基金项目(61332066,81373239)
中文摘要:

近年来微博的快速发展为命名体识别提供了新的载体,同时微博的特点也为命名体识别研究带来了挑战.针对微博特点,本文提出了基于拼音相似距离以及文本相似距离聚类算法对微博文本进行规范化,消除了微博的语言表达不规范造成的干扰.同时,本文还提出了篇章级、句子级以及词汇级三级粒度的特征提取,使用条件随机场模型进行训练数据,并识别命名体,采用由微博文本相似聚类获得的实体关系类对命名体类型进行修正.由于缺少大量的微博训练数据,本文采用半监督学习框架训练模型.通过对新浪微博数据的实验结果表明,本方法能够有效地提高微博中命名体识别的效果.

英文摘要:

In recent years, the rapid development of micro-blog provides named entity recognition(NER) with a new carrier. While the characteristics of the micro-blogs also brings challenges for NER research. Considering the characteristics of micro-blogs, this paper proposed a mehtod, which was based on an pi- nyin similar distance and text similar distance, to normalize the micro-blogging text, eliminating the in- terference caused by non-standardized expression. Meanwhile, the paper also proposed three-level-fea- tures extraction and applied the conditional random field model to train and identify the named entities. Besides, a simple method was employed to fix the named entity recognition results, which was obtained from clustering the similar micro-blogs text. Lacking of training data, this paper built a semi-supervised learning framework to train the model. The results of experiment on Sina micro-blogs data showed that this approach could improve the named entity recognition effectively.

同期刊论文项目
同项目期刊论文
期刊信息
  • 《四川大学学报:自然科学版》
  • 中国科技核心期刊
  • 主管单位:国家教育部
  • 主办单位:四川大学
  • 主编:刘应明
  • 地址:成都九眼桥望江路29号
  • 邮编:610064
  • 邮箱:
  • 电话:028-85410393 85412393
  • 国际标准刊号:ISSN:0490-6756
  • 国内统一刊号:ISSN:51-1595/N
  • 邮发代号:62-127
  • 获奖情况:
  • 国家“双效”期刊,四川省十佳科技期刊,教育部全国高校优秀学报二等奖(1995,1999),四川省科技优秀期刊一等奖(1996,2000)
  • 国内外数据库收录:
  • 美国化学文摘(网络版),美国数学评论(网络版),德国数学文摘,美国生物科学数据库,英国动物学记录,日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版),中国北大核心期刊(2000版)
  • 被引量:10542