位置:成果数据库 > 期刊 > 期刊详情页
融合无监督特征的藏文分词方法研究
  • ISSN号:1003-0077
  • 期刊名称:《中文信息学报》
  • 时间:0
  • 分类:TP391[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
  • 作者机构:西北民族大学中国民族语言文字信息技术重点实验室,甘肃兰州730030
  • 相关基金:国家社科基金青年项目(15CYY043); 国家自然科学基金(61262054); 甘肃省高等学校科研项目(2016B—007); 甘肃省民族语言智能处理重点实验室开放基金; 西北民族大学中央高校基本科研业务费专项资金(31920140064,31920150089)
中文摘要:

藏文分词是藏文信息处理的基础性关键问题,目前基于序列标注的藏文分词方法大都采用音节位置特征和类别特征等。该文从无标注语料中抽取边界熵特征、邻接变化数特征、无监督间隔标注等无监督特征,并将之融合到基于序列标注的分词系统中。从实验结果可以看出,与基线藏文分词系统相比,分词F值提高了0.97%,并且未登录词识别结果也有较大的提高。说明,该文从无标注数据中提取出的无监督特征较为有效,和有监督的分词模型融合到一起显著提高了基线分词系统的效果。

英文摘要:

Tibetan word segmentation (TWS) is an important problem in Tibetan information processing, while the current TWS features are mostly adopt the syllable position and syllable categories. The paper extracted unsupervised features, for example, boundary entropy, accessorvariety and unsupervised gap tagging, from unlabeled corpus,and studied the TWS merged with unsupervised features. The experimental results show that, F score increase of 0.97% compare to the baselinesystem, the method get a good performance on out of vocabulary words. From the above, we can conclude that this method can effectively distracted from unlabeled corpus, which can be combined easily with the supervised segmentation model. The method can significantly increases the effect of the baseline TWS.

同期刊论文项目
同项目期刊论文
期刊信息
  • 《中文信息学报》
  • 北大核心期刊(2011版)
  • 主管单位:中国科学技术协会
  • 主办单位:中国中文信息学会 中国科学院软件研究所
  • 主编:孙茂松
  • 地址:北京海淀中关村南四街4号中科院软件所
  • 邮编:100190
  • 邮箱:jcip@iscas.ac.cn
  • 电话:010-62562916
  • 国际标准刊号:ISSN:1003-0077
  • 国内统一刊号:ISSN:11-2325/N
  • 邮发代号:
  • 获奖情况:
  • 国内外数据库收录:
  • 日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版),中国北大核心期刊(2000版)
  • 被引量:9136