东篱科研大数据发现系统（DRDS）

欢迎您！东篱公司退出

申报数据库
1. 申报指南
立项数据库
成果数据库
1. 期刊论文
2. 会议论文
3. 著作
4. 专利
项目获奖数据库

位置：成果数据库 > 期刊 > 期刊详情页

基于键规则的XML实体抽取方法

ISSN号：1000-1239
期刊名称：《计算机研究与发展》
时间：0
分类：TP311.13[自动化与计算机技术—计算机软件与理论;自动化与计算机技术—计算机科学与技术]
作者机构：[1]哈尔滨工业大学计算机科学与技术学院,哈尔滨150001
相关基金：基金项目：国家“九七三”重点基础研究发展计划基金项目（2012CB316200）;国家自然科学基金青年基金项目（61003046）

作者：刘显敏[1], 李建中[1]

关键词： XML数据, 键规则, 实体抽取, 查询松弛, 共享计算, XML data, key rule, entity extraction, query relaxation, sharing computation

中文摘要：

XML上实体抽取问题的任务是要从XML数据中抽取出描述现实世界某个物理实体的数据实体．利用xML查询提供实体的表示方法，基于键规则中有关实体的语义信息，给出了求解XML上实体抽取问题的基于键规则的实体抽取（key-based entity extraction，KEE）方法．KEE方法利用查询松弛技术，自动地生成抽取实体的候选查询集合，基于相似性测度，从候选查询中选取适用于抽取实体的查询集合．作为KEE方法的一个具体实现，SharingEE算法利用标准化的查询松弛技术，减少了候选查询中的冗余，利用基于自动机的查询处理技术，在多个候选查询之间共享中间结果，从而减少计算开销．在真实和模拟数据上运行的实验验证了算法的效率和有效性．实验结果表明，KEE方法可以很好地解决实体抽取问题，并可以扩展到大规模数据上．

英文摘要：

This paper proposes a method KEE for evaluating entity extraction problem over XML data, which is an important step for identifying entities in XML data. Directed by the XML Key, utilizing the relaxation and verification techniques, KEE provides a rule-based solution for entity extraction problem, which has following characteristics. Firstly, using XML query language, KEE provides a condensed presentation for the entity whose size may get very large when scaling up the data size. Secondly, requiring only one location example to indicate the interests, using relaxation technique, KEE can discover other similar locations automatically. Thirdly, by adjusting the example given to KEE, users can specify their own interesting entity locations and control the locations discovered by KEE. Besides, utilizing the idea of sharing computations, by extending previous automaton techniques for XML query evaluation, an efficient implementation of KEE is provided. Experimental results on both synthetic and real data show that KEE can provide an effective and efficient solution to the entity extraction problem.

同期刊论文项目

　海量信息可用性基础理论与关键技术研究

期刊论文 58

数据质量管理中实体识别关键技术的研究

期刊论文 36 会议论文 18

同项目期刊论文

标签劣质的XML数据上的查询处理

MapReduce框架下基于字符串波形的实体识别方法

在线RFID多复杂事件查询处理技术

劣质数据库上阈值相似连接结果大小估计

基于实体描述属性技术的XML重复对象检测方法

XML数据流上Top-K关键字查询处理

一种非清洁数据库的数据模型

复杂数据上的实体识别技术研究

基于压缩直方图的劣质数据库上相似连接结果大小估计

Graph-based reference table construction to facilitate entity matching

Efficient subgraph matching on billion node graphs

RM树：一种支持字符串相似性操作的索引

多维代价图模型上最优路径查询问题的研究

时间依赖代价函数下的最优路径查询问题研究

基于实体的相似性连接算法

基于Map-Reduce的大数据实体识别算法

不一致数据上查询结果的一致性估计

基于标签权重评分的推荐模型及算法研究

基于子树匹配的相似xml连接方法的研究

基于距离度量的实体识别算法

PEIF:基于并行机群的大数据实体识别算法

基于Map-Reduce的大数据缺失值填充算法

基于众包的电子商务数据实体分类系统

一种扩展条件函数依赖的发现算法

社交网络中基于分类属性的好友推荐

无线传感器网络中基于双阈值的分布式监测算法

数据中心网络中的无线通信技术

劣质数据库上阈值相似连接结果大小估计

异构信息网上的可达性查询

基于图压缩的k可达查询处理

数据时效性修复问题的求解算法

不确定图上期望最短距离的计算

无线传感器网络中能量高效的Top-k监测算法

一种基站可移动传感器网络再编程协议

基于实体描述属性技术的XML重复对象检测方法

XML数据流上Top-K关键字查询处理

一种非清洁数据库的数据模型

无线传感器网络具有跟踪质量保证的节点选择算法

无线传感器网络中可容错的事件监测算法

电子商务商品归一化方法研究

复杂数据上的实体识别技术研究

基于压缩直方图的劣质数据库上相似连接结果大小估计

基于时空一体化的海洋大数据快速展示平台

一种基于空间相关性的海洋环境监测数据优化抽样方法

含排他性选择规则的主动规则集的汇流性判定方法

RM树：一种支持字符串相似性操作的索引

无线传感器网络中最小化通信开销的近似监测算法

多维代价图模型上最优路径查询问题的研究

时间依赖代价函数下的最优路径查询问题研究

基于实体的相似性连接算法

数据质量多种性质的关联关系研究

基于Map-Reduce的大数据实体识别算法

ArtiMate：一种以Artifact为中心的多粒度协作流程建模方法

基于关联数据的一致性和时效性清洗方法

基于图压缩的最大Steiner连通k核查询处理？

无线传感器网络在桥梁健康监测中的应用

无线传感器网络中移动协助的数据收集策略

不一致数据上查询结果的一致性估计

基于标签权重评分的推荐模型及算法研究

基于MapReduce的相似自连接新方法：过滤和内切圆算法

位置敏感的社交网中最小种集选取算法研究

基于任务合并的并行大数据清洗过程优化

无线传感器网络数据收集问题综述

无线传感器网络关键技术研究

Protect You More Than Blank： Anti-Learning Sensitive User Information in the Social Networks

大数据可用性的研究进展

基于x-tuple的概率阈值top-k查询算法

大数据质量管理：问题与研究进展

高效的实体匹配结果消解算法

Accurate Indoor Navigation System Using Human-Item Spatial Relation

实体识别问题的相关研究

数据时效性判定：关键理论和技术

PEIF:基于并行机群的大数据实体识别算法

基于Map-Reduce的大数据缺失值填充算法

基于众包的电子商务数据实体分类系统

Study of tide prediction method influenced by nonperiodic factors based on support vector machines

海洋信息管理系统的设计与实现

海洋大数据分级存储中迁移模型的研究

一种扩展条件函数依赖的发现算法

社交网络中基于分类属性的好友推荐

概率数据库中近似函数依赖挖掘算法

TSEA：极地科考在线系统中海量走航数据的剔除算法

期刊信息

《计算机研究与发展》
中国科技核心期刊

主管单位:中国科学院
主办单位:中国科学院计算技术研究所
主编：徐志伟
地址：北京市科学院南路6号中科院计算所
邮编：100190
邮箱：crad@ict.ac.cn
电话：010-62620696 62600350

国际标准刊号：ISSN：1000-1239
国内统一刊号：ISSN：11-1777/TP
邮发代号:2-654

获奖情况:
2001-2007百种中国杰出学术期刊，2008中国精品科...,中国期刊方阵“双效”期刊

国内外数据库收录:
俄罗斯文摘杂志,荷兰文摘与引文数据库,美国工程索引,日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊（2004版）,中国北大核心期刊（2008版）,中国北大核心期刊（2011版）,中国北大核心期刊（2014版）,中国北大核心期刊（2000版）

被引量:40349