位置:成果数据库 > 期刊 > 期刊详情页
基于远监督的语义知识资源扩展研究
  • ISSN号:1003-0077
  • 期刊名称:《中文信息学报》
  • 时间:0
  • 分类:TP391[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]北京大学中文系,北京100871, [2]北京语言大学信息科学学院,北京100083
  • 相关基金:教育部人文社会科学研究青年项目(16YJC740050); 中国博士后科学基金第60批面上项目(2016M600838); 国家社科基金重大招标项目(12&ZD175); 国家重点基础研究计划(973计划)(2014CB340502)
中文摘要:

语义知识资源蕴含了深刻的语言学理论,是语言学知识和语言工程的重要接口。该文以形容词句法语义词典为研究对象,探索对语义知识资源自动扩展的方法。该文的目标是利用大规模语料库,扩展原有词典的词表及其对应的句法格式。具体方法是根据词的句法格式将词典的词分类,将待扩展的新词通过分类器映射到原有词典的词中,以此把词典扩展问题转化为多类分类问题。依据的原理是词典词和待扩展新词在大规模语料中句法结构的相似性。该文通过远监督的方法构造训练数据,避免大量的人工标注。训练过程结合了浅层机器学习方法和深度神经网络,取得了有意义的成果。实验结果显示,深度神经网络能够习得句法结构信息,有效提升匹配的准确率。

英文摘要:

The semantic knowledge resources containing extensive linguistic information are one of the important interfaces of linguistics and language engineering.In this paper,we study the automatic expansion of semantic knowledge resources by the example of the Adjective Syntactic-Semantics Dictionary.We aim to extend the vocabulary of the dictionary and their syntactic patterns via the large corpus.More specifically,our method is to classify the words in dictionary into 97 categories by their syntactic patterns,and mapping the new words which are not existing in the dictionary into each category,thereby the whole task can be treated as a multi-class classification issue.The method is based on the fact that the new words and the dictionary words have the similar syntactic patterns in large corpus.We construct the training data by distance supervision,so as to reduce the effort of manual annotation.Training process combines the shallow learning and the deep neural network,which achieves the promising results.The experimental results show that the deep neural network is able to learn the syntactic information,and effectively improve the accuracy in the mapping task.

同期刊论文项目
同项目期刊论文
期刊信息
  • 《中文信息学报》
  • 北大核心期刊(2011版)
  • 主管单位:中国科学技术协会
  • 主办单位:中国中文信息学会 中国科学院软件研究所
  • 主编:孙茂松
  • 地址:北京海淀中关村南四街4号中科院软件所
  • 邮编:100190
  • 邮箱:jcip@iscas.ac.cn
  • 电话:010-62562916
  • 国际标准刊号:ISSN:1003-0077
  • 国内统一刊号:ISSN:11-2325/N
  • 邮发代号:
  • 获奖情况:
  • 国内外数据库收录:
  • 日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版),中国北大核心期刊(2000版)
  • 被引量:9136