位置:成果数据库 > 期刊 > 期刊详情页
基于条件随机场的藏语自动分词方法研究与实现
  • ISSN号:1003-0077
  • 期刊名称:中文信息学报
  • 时间:2013
  • 页码:52-58
  • 分类:TP391[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]西北民族大学中国民族语言文字信息技术重点实验室,甘肃兰州730030, [2]中国科学院自动化研究所模式识别国家重点实验室,北京100190
  • 相关基金:国家自然基金资助项目(61032008); 模式识别国家重点实验室开放课题资助项目(201001051); 西北民族大学中央高校基本业务费专项资金项目(ycx11135,zyz2011101)
  • 相关项目:多民族文字识别及理解的理论与方法研究
中文摘要:

藏语自动分词是藏语信息处理的基础性关键问题,而紧缩词识别是藏语分词中的重点和难点。目前公开的紧缩词识别方法都是基于规则的方法,需要词库支持。该文提出了一种基于条件随机场的紧缩词识别方法,并在此基础上实现了基于条件随机场的藏语自动分词系统。实验结果表明,基于条件随机场的紧缩词识别方法快速、有效,而且可以方便地与分词模块相结合,显著提高了藏语分词的效果。

英文摘要:

Tibetan automatic word segmentation (TAWS) is an important problem in Tibetan information process- ing, while abbreviated word recognition is one of the key and most difficult problems in TAWS. All the existing methods of Tibetan abbreviated word recognition are rule-based approaches, which need vocabulary support. In this paper, we propose a method based on conditional random field (CRF) for abbreviated word recognition, and then implement a TAWS system with CRF. The experimental results show that our abbreviated word recognition method is fast and effective and can be combined easily with the segmentation model based on conditional random fields. This significantly increases the effect of the Tibetan word segmentation.

同期刊论文项目
期刊论文 41 会议论文 33 获奖 5 著作 3
同项目期刊论文
期刊信息
  • 《中文信息学报》
  • 北大核心期刊(2011版)
  • 主管单位:中国科学技术协会
  • 主办单位:中国中文信息学会 中国科学院软件研究所
  • 主编:孙茂松
  • 地址:北京海淀中关村南四街4号中科院软件所
  • 邮编:100190
  • 邮箱:jcip@iscas.ac.cn
  • 电话:010-62562916
  • 国际标准刊号:ISSN:1003-0077
  • 国内统一刊号:ISSN:11-2325/N
  • 邮发代号:
  • 获奖情况:
  • 国内外数据库收录:
  • 日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版),中国北大核心期刊(2000版)
  • 被引量:9136