位置:成果数据库 > 期刊 > 期刊详情页
有限语料汉蒙统计机器翻译调序方法研究
  • ISSN号:1003-0077
  • 期刊名称:中文信息学报
  • 时间:2013.10.10
  • 页码:198-204
  • 分类:TP391.43[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]内蒙古大学蒙古学学院,内蒙古呼和浩特010021, [2]中国科学院合肥智能机械研究所,安徽合肥230031
  • 相关基金:内蒙古自治区蒙古语言文字信息化专项扶持项目(2012339); 国家自然科学基金(61070099); 内蒙古自治区教育厅项目(NJZC16002)
  • 相关项目:互译语言形态非对称的统计机器翻译模型构造方法研究
中文摘要:

蒙古语在命名实体识别方面开展过人名的识别,但在地名的识别方面还没有开展相应的研究。首次实现了基于条件随机场模型的蒙古文地名识别。首先从蒙古语黏着性特点分析入手,研究了蒙古语语料库中地名的存在形式以及各类地名的特点,针对蒙古语语料库中地名的特点,在词汇特征、指示词特征、特征词特征等特征基础上引入了词性特征。之后通过地名词典补召了未识别的地名。以内蒙古大学开发的100万词规模的标注语料库为训练数据,该模型的地名识别性能达到了94.68%的准确率、84.40%的召回率和89.24%的F值。

英文摘要:

This is the first realization of Mongolian geographical names recognition based on condi- tional random fields. First we analyze the existing forms and characteristics of the geographical names in the corpus from the aspect of Mongolian adhesion characteristic. In addition to designation words and the part of speech, lexical features are also introduced as the location feature of geographical names. Then unrecognized names are called by location dictionaries. Taking the 3rd-level annotated corpus with about 1000,000 words as the training data, the proposed model achieves an accuracy of 94.68%, a recall rate of 84.40%, and a F score of 89.24%.

同期刊论文项目
同项目期刊论文
期刊信息
  • 《中文信息学报》
  • 北大核心期刊(2011版)
  • 主管单位:中国科学技术协会
  • 主办单位:中国中文信息学会 中国科学院软件研究所
  • 主编:孙茂松
  • 地址:北京海淀中关村南四街4号中科院软件所
  • 邮编:100190
  • 邮箱:jcip@iscas.ac.cn
  • 电话:010-62562916
  • 国际标准刊号:ISSN:1003-0077
  • 国内统一刊号:ISSN:11-2325/N
  • 邮发代号:
  • 获奖情况:
  • 国内外数据库收录:
  • 日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版),中国北大核心期刊(2000版)
  • 被引量:9136