基于ISO/IEC10646藏文编码字符集,还是基于国家编码标准扩充集A、B,其排序规则不同于英文和汉文,它不仅在横向具有线性结构,而且在纵向具有叠加结构,它的排序规则不是简单的从构词的第一个元素开始的,而是根据基字开始,并且其它构词元素的优先级也不尽相同,因此藏文的排序规则相当复杂。本项目主要通过研究现代藏文、梵音转写藏文词语的字典序规则,设计出适合藏文字典序的排序算法。首先,判断该词语是由国家编码构成,还是国际编码构成,若国家编码,则将其转换成国际编码标准。其次,判断现代藏文和梵音转写藏文,针对不同的对象,研究不同的排序规则。再次,从单音节中找到基字、前加字、上加字、下加字、元音、后加字及再后加字等藏文特有的构词构件元素。最后,通过藏文结构优先级、构件优先级和字符优先级三种优先级算法对藏文词语的排序规则进行算法设计,且将这些算法集成后形成藏文字典序的整体算法。
Tibetan sorting;Building elements;Priority levels;Rule function;the basic word
藏文排序是通过藏文词语在其基本辅音字符的先后顺序为主线,通过藏文音节的构建元素优先级进行排列的一种方法。该方法是以藏文构字基本准则为出发点,解决藏文音节中识别藏文基字(基本辅音字符)的算法。通过该算法和构字基本准则结合起来实现了识别其它构建元素的方法。在识别音节中的所有构建元素的基础上,对藏文排序中的作用大小和一些规则来定义每个构件元素的优先级级别,最后参照字典排序为模板,设计了一款适合藏文排序的排序算法。该算法采用了一种特定规则库,对于所有藏文音节进入该库比较后得到自己的排序位置,用指针将该音节指向自己获得的位置就能够精确无误的排序出来。通过对藏文21万多短语的语料库进行排序发现,只有首字符不是藏文音节的和个别梵音转写藏文字符外,都与东嘎藏文词典的排序完全吻合,排序正确率超过了99%。