基于国际编码标准的藏文词语排序算法研究-东篱科研大数据发现系统（DRDS）

位置：立项数据库 > 立项详情页

基于国际编码标准的藏文词语排序算法研究

项目名称：基于国际编码标准的藏文词语排序算法研究
项目类别：地区科学基金项目
批准号：61163013
申请代码：F020104
项目来源：国家自然科学基金
研究期限：2012-01-01-2015-12-31

项目负责人：边巴旺堆
依托单位：西藏大学
批准年度：2011

中文摘要：

基于ISO/IEC10646藏文编码字符集，还是基于国家编码标准扩充集A、B，其排序规则不同于英文和汉文，它不仅在横向具有线性结构，而且在纵向具有叠加结构，它的排序规则不是简单的从构词的第一个元素开始的，而是根据基字开始，并且其它构词元素的优先级也不尽相同，因此藏文的排序规则相当复杂。本项目主要通过研究现代藏文、梵音转写藏文词语的字典序规则，设计出适合藏文字典序的排序算法。首先，判断该词语是由国家编码构成，还是国际编码构成，若国家编码，则将其转换成国际编码标准。其次，判断现代藏文和梵音转写藏文，针对不同的对象，研究不同的排序规则。再次，从单音节中找到基字、前加字、上加字、下加字、元音、后加字及再后加字等藏文特有的构词构件元素。最后，通过藏文结构优先级、构件优先级和字符优先级三种优先级算法对藏文词语的排序规则进行算法设计，且将这些算法集成后形成藏文字典序的整体算法。

中文主题词：藏文排序；构件元素；优先级；规则函数；基字

英文摘要：

Tibetan sorting；Building elements；Priority levels；Rule function；the basic word

英文主题词： Tibetan sorting；Building elements；Priority levels；Rule function；the basic word

结论摘要：

藏文排序是通过藏文词语在其基本辅音字符的先后顺序为主线，通过藏文音节的构建元素优先级进行排列的一种方法。该方法是以藏文构字基本准则为出发点，解决藏文音节中识别藏文基字（基本辅音字符）的算法。通过该算法和构字基本准则结合起来实现了识别其它构建元素的方法。在识别音节中的所有构建元素的基础上，对藏文排序中的作用大小和一些规则来定义每个构件元素的优先级级别，最后参照字典排序为模板，设计了一款适合藏文排序的排序算法。该算法采用了一种特定规则库，对于所有藏文音节进入该库比较后得到自己的排序位置，用指针将该音节指向自己获得的位置就能够精确无误的排序出来。通过对藏文21万多短语的语料库进行排序发现，只有首字符不是藏文音节的和个别梵音转写藏文字符外，都与东嘎藏文词典的排序完全吻合，排序正确率超过了99%。

成果综合统计