在句处理过程中,语义知识可以有效解决歧义字段切分、名实体识别、新词、术语识别等关键问题。语义本体是用于描述知识的共享概念模型的显示的形式化规范说明。本课题采用半自动本体创建策略,由藏语知识工程师手工编辑上位本体,利用电子词典的语义释义获取概念同义词。在汉英多语言本体和标注语料上,进行基于上下位关系的模式匹配获取新词,按照语义相似度排序后交给知识工程师,修订后再扩充到本体中。本课题深入研究藏语本体创建中的关键技术问题,主要研究内容包括藏语本体概念的属性结构,使每种概念的结构能够充分表达对应的语法及语义知识;藏语中体现上下位关系的模式表示和获取方法;基于HowNet义原和本体的词汇语义相似度的计算方法;开发支持藏文的本体编辑工具。本课题的研究将有助于开展藏语句层面的信息处理,同时对开展藏文机器翻译、信息检索、自动摘要提供有效支持。
Tibetan language processing;semantic ontology;hyponymic relation;ontology learning;concept acquisition
藏文信息处理在字、词和短语处理方面已经陆续取得了相对突破,句处理阶段的攻关已经开始。在句处理过程中,语义知识可以有效解决歧义字段切分、命名实体识别、新词、术语识别等关键问题。研究藏语语义本体的概念识别问题。根据HowNet知网中概念的表示方法和义原的定义,基于汉藏词典中对照的词语匹配,提出一种藏语词语语义相似度计算方法。该算法允许选择多种词汇语义距离的计算依据,计算两个藏语词汇的语义相似度。针对同一汉语词汇,对应于多种不同的藏语词汇的情况,根据语义本体中的上下位关系,提出一种对藏文词汇选择正确词义的消歧算法。申请发明专利1项,论文发表在IALP 2013,“第14界中国少数民族语言文字信息学术研讨会”优秀论文。研究藏语语义本体中概念的自动获取问题。提出了藏语句法和语义角色联合标注方法。通过在语料标注中增加谓语动词相关的“语义格”“语义指向”标注规范,表现藏语句法中蕴含的语义关系,可提高句处理系统的性能。将语义知识库融合词语对齐方法并结合藏语句法中的词语位置形变距离计算的多策略方法,研究了藏汉双语的词语对齐技术.申请发明专利1项,论文发表在International Journal of Hybrid Information Technology等。分析谓语动词是句处理过程的重要步骤。制定藏语谓语动词分类规范,分析谓语动词在藏文句子中的用法。提出了藏语谓语动词识别算法。该算法发表在International Journal of Multimedia and Ubiquitous Engineering。整理近几年的学习体会,出版《藏文文字信息处理技术》专著一本。创建了藏文语义本体,开发藏语语义本体编辑软件,提供可视化的本体编缉工具。申请软件著作权3项,论文发表在Telkomnika-Indonesian Journal of Electrical Engineering, Journal of Discrete Mathematical Sciences and Cryptography等。根据项目申请书和资助计划书的内容,本项目完成了既定研究任务。研究成果将促进知识工程在藏语信息处理领域的技术实现,推动藏语句法层面的研究工作。