位置:成果数据库 > 期刊 > 期刊详情页
基于最大熵的泰语句子级实体从属关系抽取
  • ISSN号:0469-5097
  • 期刊名称:《南京大学学报:自然科学版》
  • 时间:0
  • 分类:TP391[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
  • 作者机构:昆明理工大学信息工程与自动化学院,昆明650504
  • 相关基金:国家自然科学基金(61462054,61363044); 云南省科技厅面上项目(2015FB135); 云南省教育厅科学研究基金重点项目(2015Z022); 昆明理工大学省级人培项目(KKSY201403028)
中文摘要:

采用基于最大熵模型的方法对泰语句子级实体从属关系的抽取方法进行了研究.针对泰语句子中实体关系抽取的研究进程中语料库较为匮乏的问题,首先使用汉泰双语平行句对作为中间桥梁,将中文研究领域中相对成熟的分词、词性标注和实体识别等成果,通过汉泰双语词典映射到与中文句子相对齐的泰语句子上,对泰语句子进行必要的数据处理操作,并进行一定量的人工校正和人工实体关系标注工作;进而构建基础的泰语实体关系训练语料库.在语料库的基础上,将泰语实体关系抽取问题转化为分类问题,同时结合泰语语言本身的特点,选取合适的上下文特征模板,使用最大熵模型算法对训练语料进行学习训练,构建分类器,对泰语句子中的候选实体关系三元组进行识别,最终达到实体间从属关系自动抽取的目的.实验结果显示该方法可使F值相对于已有的泰语实体关系抽取研究方法提升8%左右.

英文摘要:

The paper is aimed to extract affiliation relations between entities in the Thai research domain.An approach of the affiliation relations extraction between entities in sentences of Thai language based on the maximum entropy model is proposed.As for the deficience of corpus in the relation extraction process between entities in the sentences of Thai language,by making full use of the parallel sentence pairs of Chinese-Thai bilingual as an intermediate bridge,the comparative mature research findings in Chinese research domian,which including word segmentation,POS tagging,entity recognition and so on,will be mapped to the sentences of Thai language which corresponding to the sentences of Chinese with the help of Chinese-Thai bilingual dictionary.Then we operate several data processing procedures of Thai sentences and conduct appropriate manual amendments,as well as labeling the entity relationsamples manually.Consequently,the training corpus infrastructure of entity relations extraction in Thai language is built.On the basis of the corpus,we treat the entity relations extraction problem as a classification task.Given several particular characteristics of the Thai language itself,certain features templates in context of samples are extracted to train the maximum entropy model to be a useful classifier.Thus the model is able to recognize the class of triple tuples of candidate entity affiliation realtions to verify the efficiency and precision of the classifier in order to accomplish the task of the affiliation relations extraction between entities.The experiments show that the approach put forward in the paper can enable the F-measure to improve 8% approximately compared with the existing methods.

同期刊论文项目
同项目期刊论文
期刊信息
  • 《南京大学学报:自然科学版》
  • 中国科技核心期刊
  • 主管单位:中华人民共和国教育部
  • 主办单位:南京大学
  • 主编:龚昌德
  • 地址:南京汉口路22号南京大学(自然科学版)编辑部
  • 邮编:210093
  • 邮箱:xbnse@netra.nju.edu.cn
  • 电话:025-83592704
  • 国际标准刊号:ISSN:0469-5097
  • 国内统一刊号:ISSN:32-1169/N
  • 邮发代号:28-25
  • 获奖情况:
  • 中国自然科学核心期刊,中国期刊方阵“双效”期刊
  • 国内外数据库收录:
  • 美国化学文摘(网络版),美国数学评论(网络版),德国数学文摘,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版),中国北大核心期刊(2000版)
  • 被引量:9316