藏文字符排序是藏文语料库建设、信息检索、机器翻译以及拼写检查等领域的基础,虽然已有一些科研机构做了一些前期研究,但问题远没有彻底解决。导致藏文排序比较困难的原因有1.排序码的国际标准DUCET中,部分藏文字母的排序码不符合排序要求;2.不同类型的藏文字符串有不同的排序规则,因此,排序前需要判断待排序字符串的类型;3.现代藏文音节、梵音藏文组合字符是藏文字母的二维组合,排序时需要将它们展成一维的字符串,而复杂多变的二维结构使得这种"降维"过程很繁琐。本项目致力于彻底解决藏文字符的字典排序问题。为此,首先修订DUCET中部分藏文字符的排序码,使得所有藏文字符的排序码符合排序要求;其次,在此基础上设计藏文字符排序算法,该算法主要包括以下几个步骤1.判定藏文字符串的类型;2.不同类型的字符串按照各自的规则展成一维字母串;3.通过比较一维字母串间的顺序,得到待排序字符串间的顺序。
Tibetan;character;collation;Unicode;ISO 10646
项目“藏文字符排序研究”的研究领域属于计算机应用技术中的少数民族语言文字信息处理技术,特别属于藏语言文字信息处理技术,主要研究内容有四项一是修订部分藏文字符的排序码,二是判定待排序藏文字符串的类型,三是建立各类字符串间的比较原则,四是开发藏文字符排序软件。 (1)Unicode技术委员会颁布的Default Unicode Collation Element Table(简称为DUCET)为包括藏文字符在内的所有Unicode字符指定了排序码,但部分藏文字符的排序码不符合它们的排序要求。课题组根据藏文字符的排序规律提出了这些字符排序码的修订方案,从而使得藏文字符的排序更具科学性。 (2)从字符排序的角度来看,藏文字符串可以分为现代藏文音节串、梵音藏文组合字符串、一般藏文字母串、藏文数字串、藏文标点符号串等八种类型。其中,现代藏文音节串和梵音藏文组合字符串的排序比较重要也比较复杂。课题组重点研究了这两类字符串的排序问题,提出了基于现代藏文字典序性的通用音节结构和基于梵音藏文字典序性的通用音节结构,提出了符合通用结构的藏文音节的展开顺序,从而将二维的藏文音节展开成一维的藏文字符串,利用这个一维字符串实现不同类型藏文音节的比较。 (3)课题组开发了相应的排序软件,该软件包括待排序字符串的类型判别模块、已知类型字符串的展开模块,排序码串压缩模块以及比较串字模块。 本课题的所有研究一开始便建立在藏文字符集的国际标准ISO 10646的基础上,藏文字符的排序码完全采用Unicode技术委员会颁布的国际规范DUCET中的排序码,排序算法遵循Unicode技术委员会颁布的国际规范Unicode Collation Algorithm中的相关要求,而排序结果符合传统藏文字典的序性,从而保证了所取得的研究成果更具规范性。 通过课题组全体成员的努力,在藏文字符排序研究方面取得了一系列的研究成果发表学术论文12篇(EI/ISTP检索5篇,核心期刊3篇),撰写高校在职硕士学位论文5篇;申请国家发明专利2项授权1项;开发藏文音节部件解析软件1款;建立脱机手写藏文字符样本数据库THCDB一个,申请到青海师范大学创新项目1项,申请到青海省普通高等学校研究生创新研究项目1项。