东篱科研大数据发现系统（DRDS）

位置：成果数据库 > 期刊 > 期刊详情页

面向关联数据的联合式实体识别方法

ISSN号：0254-4164
期刊名称：《计算机学报》
时间：0
分类：TP18[自动化与计算机技术—控制科学与工程;自动化与计算机技术—控制理论与控制工程]
作者机构：[1]东北大学信息科学与工程学院,沈阳110819
相关基金：国家“九七三”重点基础研究发展规划项目基金（2012CB316201）; 国家自然科学基金面上项目（61472070）资助~~

关键词：联合式实体识别, 相似度传递, 基于结构的相似度, 实体数据对象关系图, joint entity resolution, similarity propagation, structure-based similarity, entity dataobject relationship graph

中文摘要：

文中提出一种基于图的、迭代的联合式实体识别方法.初始时,将多类型的、关联的实体数据对象集合构建实体数据对象关系图,将基于语义路径的相似度和属性相似度结合起来判断数据对象是否匹配;然后,合并匹配成功的数据对象,并对对象图中的相应数据对象结点及其周边执行局部图收缩,这两个操作使对象图的局部语义变得更丰富,促使该局部范围内产生出新的候选匹配对象对,以待后续识别,实现相似度传递,形成一个迭代的识别过程.随着不断迭代,对象图的语义不断丰富,提高了联合式实体识别的准确性.通过实验证明文中提出的方法比已有的联合式实体识别方法和基于对象关系的单类型实体识别方法具有更高的准确性.

英文摘要：

We propose a graph-based iterative joint entity resolution approach. To start off, an entity data object relationship graph is built from the input dataset consisting of multiple classes of related data objects. It hires a hybrid similarity, combining a structure similarity based on semantic paths and an attribute-based similarity, to decide whether two data objects match. Then it merges the matched pair and contracts the neighborhood of the merged pair, which leads to enrichment of semantics of the neighborhood. Enrichment of semantics may help generate some new candidate data object pairs in the neighborhood, which will be resolved later. Generation of new candidate data object pairs is called similarity propagation, making it an iterative process. With the iterative process going on, semantics of the object graph becomes richer and richer, promoting accuracy of entity resolution. The experimental evaluation proves that the proposed approach outperforms existing joint entity resolution approaches and relationship-based single class entity resolution approaches in accuracy.

同期刊论文项目

信息网络市场中面向主题域识别的博弈融合方法

期刊论文 15

同项目期刊论文

基于关联数据的一致性和时效性清洗方法

BOD：一种高效的分布式离群点检测算法

面向Web数据集成的真值发现算法

面向实体识别的聚类算法

A genetic algorithm based entity resolution approach with active learning

一种基于隐私保护下的多方记录链接方法

基于强连通分量的个性化的网页排名高效算法

云计算环境下资源需求预测与调度方法的研究

面向DATALOG查询的半环溯源计算方法

基于重叠社区搜索的传播热点选择方法

一种对时空信息的kNN查询处理方法？

异构数据联合式的真值发现算法

一种面向多源知识图谱的样例查询方法

多样性感知的时空文本信息的KNN查询处理方法

期刊信息

《计算机学报》
北大核心期刊（2011版）

主管单位:中国科学院
主办单位:中国计算机学会中国科学院计算技术研究所
主编：孙凝晖
地址：北京中关村科学院南路6号
邮编：100190
邮箱：cjc@ict.ac.cn
电话：010-62620695

国际标准刊号：ISSN：0254-4164
国内统一刊号：ISSN：11-1826/TP
邮发代号:2-833

获奖情况:
中国期刊方阵“双效”期刊

国内外数据库收录:
美国数学评论（网络版）,荷兰文摘与引文数据库,美国工程索引,美国剑桥科学文摘,日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊（2004版）,中国北大核心期刊（2008版）,中国北大核心期刊（2011版）,中国北大核心期刊（2014版）,中国北大核心期刊（2000版）

被引量:48433