位置:成果数据库 > 期刊 > 期刊详情页
面向关联数据的联合式实体识别方法
  • ISSN号:0254-4164
  • 期刊名称:《计算机学报》
  • 时间:0
  • 分类:TP18[自动化与计算机技术—控制科学与工程;自动化与计算机技术—控制理论与控制工程]
  • 作者机构:[1]东北大学信息科学与工程学院,沈阳110819
  • 相关基金:国家“九七三”重点基础研究发展规划项目基金(2012CB316201); 国家自然科学基金面上项目(61472070)资助~~
中文摘要:

文中提出一种基于图的、迭代的联合式实体识别方法.初始时,将多类型的、关联的实体数据对象集合构建实体数据对象关系图,将基于语义路径的相似度和属性相似度结合起来判断数据对象是否匹配;然后,合并匹配成功的数据对象,并对对象图中的相应数据对象结点及其周边执行局部图收缩,这两个操作使对象图的局部语义变得更丰富,促使该局部范围内产生出新的候选匹配对象对,以待后续识别,实现相似度传递,形成一个迭代的识别过程.随着不断迭代,对象图的语义不断丰富,提高了联合式实体识别的准确性.通过实验证明文中提出的方法比已有的联合式实体识别方法和基于对象关系的单类型实体识别方法具有更高的准确性.

英文摘要:

We propose a graph-based iterative joint entity resolution approach. To start off, an entity data object relationship graph is built from the input dataset consisting of multiple classes of related data objects. It hires a hybrid similarity, combining a structure similarity based on semantic paths and an attribute-based similarity, to decide whether two data objects match. Then it merges the matched pair and contracts the neighborhood of the merged pair, which leads to enrichment of semantics of the neighborhood. Enrichment of semantics may help generate some new candidate data object pairs in the neighborhood, which will be resolved later. Generation of new candidate data object pairs is called similarity propagation, making it an iterative process. With the iterative process going on, semantics of the object graph becomes richer and richer, promoting accuracy of entity resolution. The experimental evaluation proves that the proposed approach outperforms existing joint entity resolution approaches and relationship-based single class entity resolution approaches in accuracy.

同期刊论文项目
同项目期刊论文
期刊信息
  • 《计算机学报》
  • 北大核心期刊(2011版)
  • 主管单位:中国科学院
  • 主办单位:中国计算机学会 中国科学院计算技术研究所
  • 主编:孙凝晖
  • 地址:北京中关村科学院南路6号
  • 邮编:100190
  • 邮箱:cjc@ict.ac.cn
  • 电话:010-62620695
  • 国际标准刊号:ISSN:0254-4164
  • 国内统一刊号:ISSN:11-1826/TP
  • 邮发代号:2-833
  • 获奖情况:
  • 中国期刊方阵“双效”期刊
  • 国内外数据库收录:
  • 美国数学评论(网络版),荷兰文摘与引文数据库,美国工程索引,美国剑桥科学文摘,日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版),中国北大核心期刊(2000版)
  • 被引量:48433