甲骨文是世界上最古老的文字之一,但是在5000多个甲骨文字中只认识1500多个,所以甲骨文考释一直是甲骨学研究领域的一个重要课题,本课题在建立甲骨文语料库的基础上,采用数据挖掘、领域本体和计算语言学的相关技术,从字形、语义、语法三个角度研究了甲骨文字及其卜辞的形式化表示及相关的辅助考释技术,在该项目中建设了包含72112条记录的《甲骨文标注语料库》、《古文字字形数据库》、《甲骨文刻辞基础词典》、《甲骨文本体》、《甲骨文语义词典》五个数据库,设计开发了《甲骨文自由笔画输入法》、《基于字形演变知识库的甲骨文辅助考释系统》、《基于"说文"和"甲骨文诂林"的甲骨文辅助考释系统》、《甲骨文语料库分词和标注系统》、《基于上下文分析的辅助考释系统》、《甲骨文文法分析系统》、《基于XML/ Schema的甲骨文语料的结构化标注系统》、《基于本体的语义标注系统》八个软件系统,基本建成了一个甲骨文语言资源库和知识库,为甲骨文的考释由猜想走向科学提供了数据基础和分析技术。
英文主题词corpus;annotate;semantics;ontology;data mining