东篱科研大数据发现系统（DRDS）

欢迎您！东篱公司退出

申报数据库
1. 申报指南
立项数据库
成果数据库
1. 期刊论文
2. 会议论文
3. 著作
4. 专利
项目获奖数据库

位置：成果数据库 > 期刊 > 期刊详情页

“蒙古语名词语义信息词典”的开发与应用

ISSN号：1003-0077
期刊名称：《中文信息学报》
时间：0
分类：TP391.43[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
作者机构：[1]清华信息科学与技术国家实验室,北京100084, [2]清华大学电子工程系,北京100084
相关基金：国家自然科学基金（61032008）; 国家973计划项目（2013CB329403）资助课题

作者：海银花[1], 那顺乌日图[1]

关键词：文字识别, 隐马尔可夫模型, 统计学习, 维吾尔文, Character recognition, Hidden Markov Model（HMM）, Statistical learning, Uyghur character

中文摘要：

无切分维吾尔文文档识别技术能够有效避免字符切分错误,但是对于低数据资源的新样本类型,原有模型往往难以获得较高的识别性能。为此,该文提出共享常用维文字体间相对稳定的字符结构信息,并用Bootstrap方法提高样本利用效率的解决方法。通过在实际书籍样本上的实验表明,仅利用规模约原始训练样本1/5的新类型样本,该方法在测试集上的平均字符识别准确率就可以达到95.05%;而与常用的最大后验概率估计方法相比,也能使识别错误率相对降低55.76%-63.84%。因此,该方法能够有效解决低数据资源条件下的维文字符建模问题,实现对新样本类型的高性能识别。

英文摘要：

Although segmentation-free Uyghur character document recognition can efficiently avoid character segmentation error, it does not work well on low-resource new-type samples. This paper suggests sharing stable character structure among different Uyghur fonts, and improves the efficiency of utilizing samples through Bootstrap. Experiments are made on new-type book samples, which contains only 1/5 training sample amount than the original. The average character recognition accuracy of the proposed method on test samples is 95.05%, and has 55.76%~63.84% recognition error rate relative decrease than the one of Maximum A Posteriori（MAP） method. Therefore, the proposed method can accomplish accurate Uyghur character model training under low data resource conditions.

同期刊论文项目

《蒙古语语义信息词典》的设计与实现

期刊论文 22 会议论文 7

　蒙古语熟语知识库的开发与研究

期刊论文 3

　小麦抗白粉病基因标记应用研究

期刊论文 2

多民族文字识别及理解的理论与方法研究

期刊论文 41 会议论文 33 获奖 5 著作 3

同项目期刊论文

维吾尔文智能输入法研究

基于维语词干词缀粒度的汉维机器翻译

维吾尔语词尾对汉维统计机器翻译影响的研究

基于KNN的中文文本分类性能研究

维吾尔文扫描页的倾斜校正

印刷哈萨克斯拉夫粘连字符的切分方法

最大熵和条件随机场模型相融合的藏文人名识别

<span style="color:#943634;font-family:宋体;font-size:10.5pt;">名词重叠形式的统计分析</span>

与基线信息无关的手写阿拉伯文字特征提取

维吾尔文智能输入法的研究

融合音节特征的最大熵藏文词性标注研究

基于短语的藏汉机器翻译系统

基于短语的藏汉统计机器翻译系统

统计与规则相结合的藏文句子自动断句方法

The initial framework of developing semantic knowledge base of Mongolian idioms

基于词典的藏汉跨语言检索系统研究

“蒙古语名词语义信息词典”数据库的构建

Graphic Language Model for Agglutinative Languages Uyghur as Study Case

《蒙古语名词语义信息词典》中的一价名词语义关系分析

Topic Language Model Adaption for Recognition of Homologous Offline Handwritten Chinese Text Image

一种基于HMM的维吾尔文联机手写识别的方法

Restoring camera-captured distorted document images

<span style="color:#943634;font-family:宋体;font-size:10.5pt;">《蒙古语语法信息词典名词分库》的设计</

Exploring More Representative States of Hidden Markov Model in Optical Character Recognition: A Clus

一种基于HMM和统计语言模型的维吾尔文及阿拉伯文识别方法

一种与基线信息无关的阿拉伯文字特征提取方法

维吾尔新文字印刷体识别系统的研究与开发

面向信息处理的蒙古语名词语义分类体系

基于条件随机场的藏语自动分词方法研究与实现

多字体印刷藏文内容监测系统研究

基于音节标注的藏文自动分词研究

一种提高维吾尔语-汉语词语对齐的方法研究

蒙古语熟语资源库的初步构建

蒙古语语义信息词典SIKM的研发

达日罕汉蒙电子辞典数据库管理工具的设计与创新

基于阿拉伯数字中介的汉蒙数词对齐策略

蒙古语同音同形词分类自动化标注法

蒙古文同形同音同类词知识库的构建

基于短语的汉蒙统计机器翻译系统研究

蒙古语名词语义分类的重要性

面向信息处理的蒙古语名词语义网络研究

建立托忒蒙古文语料库的初步设想

论科尔沁土语动词跟随连接形式

蒙古语连接形式信息词典的管理程序

蒙古语词法分析的有向图模型

蒙古语名词价量与义类对应关系研究

面向信息处理的蒙古语名词义类搭配研究

蒙古语谚语数据库管理程序的设计和实现

蒙古语语言知识库的建立与应用

蒙古语名词配价制定问题之初探

“蒙古语名词语义信息词典”数据库的构建

“蒙古文同音同形同类词”知识库的构建

蒙古语熟语资源库的初步构建

蒙古语语义信息词典SIKM的研发

蒙古语熟语资源库的初步构建

蒙古语语义信息词典SIKM的研发

蒙古语熟语资源库的初步构建

期刊信息

《中文信息学报》
北大核心期刊（2011版）

主管单位:中国科学技术协会
主办单位:中国中文信息学会中国科学院软件研究所
主编：孙茂松
地址：北京海淀中关村南四街4号中科院软件所
邮编：100190
邮箱：jcip@iscas.ac.cn
电话：010-62562916

国际标准刊号：ISSN：1003-0077
国内统一刊号：ISSN：11-2325/N
邮发代号:

获奖情况:

国内外数据库收录:
日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊（2004版）,中国北大核心期刊（2008版）,中国北大核心期刊（2011版）,中国北大核心期刊（2014版）,中国北大核心期刊（2000版）

被引量:9136