维吾尔语框架语义角色自动标注技术是以真实语料为依据、以维吾尔语框架语义知识库为基础、以先语义后句法为路线,采取条件随机场模型建立维吾尔语框架语义角色标注模型。模型以词为基本标注单元,分别选择词、词性、词相对于目标词的位置、目标词及其组合为特征,针对每个特征设定若干可选的窗口,组合构成模型的各种特征模板,并采用统计正交表的特征模板优选方法,对基于阿拉伯字符的维吾尔语框架语义角色进行自动标注。并以为阶段性目标,进一步研究维吾尔语框架元素的分类体系、标注符号集、语义成分的依存关系、语义角色分解与自动识别技术,语义角色知识库的构建和自动标注等相关技术。最终实现,使计算机对维吾尔语语句有一个"浅层"的理解能力。以此将开展基于阿拉伯字符的维吾尔语框架语义角色基础上的句义理解,语信息检索系统、问答系统和机器翻译系统的研发,通过本项目的研究,使维吾尔语语义分析技术向智能化迈进。
Uyghur;FrameNet semantic knowledge base;the target word recognition;conditional random fields;feature
课题组近四年来,“引进消化吸收再创新”的构建思路来研究了维吾尔语框架语义角色自动标注技术领域的研究。根据维吾尔语词汇的框架语义内容,并用维吾尔语词的真实语料做验证、修改和补充。维吾尔语框架语义角色自动标注技术的研究等领域进行试探性研究。研究了维吾尔语源语言的框架语义知识库的语义角色的分类和标注标记符集、短语类型和标注符号集、句法功能的标注符号集、句标注规范的制定和句标注规范的制定的研究内容可以作为维吾尔语框架语义角色自动标注技术的基础。本项目中我们初步研究了维吾尔语框架目标词识别的方法,维吾尔语框架网络语义知识库和目标词的特点分析的基础上,采用条件随机场模型对维吾尔语框架目标词识别进行了初步的探讨。维吾尔语标注例句中目标词识别时,把识别问题看作为序列标注的问题来解决的,即用统计的方法来进行机构名识别。由于条件随机场模型不仅能够充分利用上下文信息作为特征,还能够任意增加更复杂的其他外部特征进行训练和推理,目前,它是自然语言处理领域使用比较广泛的序列标注模型之一。因此,本项目中我们采用条件随机场模型进行目标词识别。我们把词形、词性、词干、句法功能等作为特征,对不同的特征选择不同的窗口大小,制定一个最优模板来进行目标词识别。试验结果证明,采用条件随机场模型识别目标词时,以上特征的有效性还不错,F值达到了84.51%。维吾尔语框架语义角色自动标注技术领域的试探性研究,为今后将进一步深入对维吾尔语框架语义角色自动标注技术,展开维吾尔语框架语义角色基础上的句义理解计算模型研究,研究与开发基于句义理解的信息检索,问答系统、信息抽取和机器翻译提供基础服务。