位置:成果数据库 > 期刊 > 期刊详情页
基于单字提示特征的中文命名实体识别快速算法
  • ISSN号:1003-0077
  • 期刊名称:中文信息学报
  • 时间:0
  • 页码:104-110
  • 语言:中文
  • 分类:TP391[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]中国科学院软件研究所,北京100190, [2]中国科学院研究生院,北京100049
  • 相关基金:国家自然科学基金资助项目(60773027;60736044);国家863计划重点资助项目(2006AA010108)
  • 相关项目:下一代信息检索研究
中文摘要:

命名实体关系抽取是信息抽取领域中的重要研究课题之一。该文探讨了核方法在中文关系抽取上的有效性问题,主要分为三部分:研究了在卷积树核中使用不同的语法树对关系抽取性能的影响;通过构造复合核检查了树核与平面核之间的互补效果;改进了最短路径依赖核,将核计算建立在原最短依赖路径的最长公共子序列上,以消除原始最短路径依赖核对依赖路径长度相同的过严要求。因为核方法开始被用于英文关系抽取时,F1值也只有40%左右,而我们在ACE2007标准语料集上的实验结果表明,只使用作用在语法树上的卷积核时,中文关系抽取的F1值达到了35%,可见卷积核方法对中文关系抽取也是有效的,同时实验也表明最短路径依赖核对中文关系抽取效果不明显。

英文摘要:

Entity Relation Extraction is one of the important research fields in Information Extraction. This paper explores the effectiveness of two kernel-based methods, the convolution tree kernel and the shortest path dependency kernel, for Chinese relation extraction based on ACE 2007 corpus. For the convolution kernel, the influence by the different parse tree spans on the performance of relation extraction is studied. Then, experiments with composite kernels, which are a combination of the convolution kernel and feature-based kernels, are conducted to investigate the complementary effects between tree kernel and flat kernels. Finally, we improve the shortest path dependency kernel by replacing the strict same length requirement with finding the longest common subsequences between two shortest dependency paths. Experiments prove that kernel-based methods are effective for Chinese relation extraction as well.

同期刊论文项目
期刊论文 12 会议论文 20
期刊论文 117 会议论文 76 专利 12 著作 3
同项目期刊论文
期刊信息
  • 《中文信息学报》
  • 北大核心期刊(2011版)
  • 主管单位:中国科学技术协会
  • 主办单位:中国中文信息学会 中国科学院软件研究所
  • 主编:孙茂松
  • 地址:北京海淀中关村南四街4号中科院软件所
  • 邮编:100190
  • 邮箱:jcip@iscas.ac.cn
  • 电话:010-62562916
  • 国际标准刊号:ISSN:1003-0077
  • 国内统一刊号:ISSN:11-2325/N
  • 邮发代号:
  • 获奖情况:
  • 国内外数据库收录:
  • 日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版),中国北大核心期刊(2000版)
  • 被引量:9136