位置:成果数据库 > 期刊 > 期刊详情页
基于迁移的微博分词和文本规范化联合模型
  • ISSN号:1000-565X
  • 期刊名称:《华南理工大学学报:自然科学版》
  • 时间:0
  • 分类:TP391[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]武汉大学计算机学院,湖北武汉430072, [2]湖北科技学院计算机科学与技术学院,湖北咸宁437100
  • 相关基金:国家自然科学基金重点资助项目(61133012);国家自然科学基金资助项目(61173062,61373108);国家社会科学基金重点资助项目(11&ZDl89)
中文摘要:

传统的分词器在微博文本上不能达到好的性能,主要归结于:(1)缺少标注语料;(2)存在大量的非规范化词.针对这两类问题,文中提出一个分词和文本规范化的联合模型,该模型在迁移分词基础上,通过扩充迁移行为来实现文本规范化,进而对规范的文本进行分词.在实验中,采用大量的规范标注文本及少量的微博标注文本进行训练,实验结果显示,该模型具有较好的域适应性,其分词错误率比传统的方法减少了10.35%.

同期刊论文项目
同项目期刊论文
期刊信息
  • 《华南理工大学学报:自然科学版》
  • 北大核心期刊(2011版)
  • 主管单位:国家教育部科技司
  • 主办单位:华南理工大学
  • 主编:李元元
  • 地址:广州市天河区五山路华南理工大学17号楼
  • 邮编:510640
  • 邮箱:journal@scut.edu.cn
  • 电话:
  • 国际标准刊号:ISSN:1000-565X
  • 国内统一刊号:ISSN:44-1251/T
  • 邮发代号:46-174
  • 获奖情况:
  • 本学报荣获1996年国家教委系统优秀科技期刊二等奖...,1999年荣获全国优秀高校自然科学学报及教育部优秀...,2001年荣获广东省优秀期刊奖和广东省优秀科技期刊...,2004年获全国高校优秀科技期刊二等奖,2006年获首届教育部优秀科技期刊奖,2008年荣获第二届教育部优秀科技期刊奖
  • 国内外数据库收录:
  • 俄罗斯文摘杂志,美国化学文摘(网络版),荷兰文摘与引文数据库,美国工程索引,美国剑桥科学文摘,英国科学文摘数据库,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版),中国北大核心期刊(2000版)
  • 被引量:22954