东篱科研大数据发现系统（DRDS）

位置：成果数据库 > 期刊 > 期刊详情页

XML数据流上Top-K关键字查询处理

ISSN号：1000-9825
期刊名称：软件学报
时间：2012
页码：1561-1577
分类：TP311[自动化与计算机技术—计算机软件与理论;自动化与计算机技术—计算机科学与技术]
作者机构：[1]哈尔滨工业大学计算机科学与技术学院,黑龙江哈尔滨150001
相关基金：国家自然科学基金（61003046,61111130189）;国家重点基础研究发展计划（973）（2012cB316200）;高等学校博士学科点专项科研基金（20102302120054）
相关项目：复杂数据上实体识别关键技术的研究

关键词： XML, 数据流, 关键字查询, TOP-K, SKYLINE, XML, streams, keyword search, Top-K, skyline

中文摘要：

利用关键字可以在模式未知的情况下对XML数据进行查询．在当前的XML数据流上的关键字查询处理中，打分函数往往不能都满足各种用户不同的需求．提出了一种基于skyline的XML数据流上的Top-K关键字查询．对于这种查询，不需要考虑影响结果与查询相关性的复杂因素，只需利用skyline挑选与查询最相关的结果．提出了两种XML数据流上的有效的基于skyline的Top-K关键查询处理算法，包括对单查询和多查询的处理算法．通过扩展实验对两种算法的有效性和可扩展性进行了验证．经过实验验证，所提出的查询处理算法的效率几乎不受关键字个数、查询结果数量、查询数量等参数的影响，运行时间和文档大小大致呈线性关系．

英文摘要：

Keywords are suitable for query XML streams without schema information. In current forms of keywords search on XML streams and rank functions do not always represent users＇ intensions. This paper addresses this problem in another aspect. In this paper, the skyline Top-K keyword queries, a novel kind of keyword queries on XML streams, are presented. For such queries, skyline is used to choose results on XML streams without considering the complicated factors influencing the relevance to queries. With skyline query processing techniques, two techniques, are presented to process skyline Top-K keyword single queries and multi-queries on XML streams efficiently. Extensive experiments are performed to verify the effectiveness and efficiency of these techniques presented in this paper. According to the experimental results, the algorithms are not sensitive to the parameters such as the number of keywords, the number of results, the number of queries, and the runtime is approximately linear to the size of document.

同期刊论文项目

复杂数据上实体识别关键技术的研究

期刊论文 24 会议论文 15 著作 1

　海量信息可用性基础理论与关键技术研究

期刊论文 58

数据质量管理中实体识别关键技术的研究

期刊论文 36 会议论文 18

同项目期刊论文

劣质数据库上阈值相似连接结果大小估计

实体数据库中多相似连接顺序选择策略

An efficient entity resolution method for large relations

基于 probase 的互联网商品信息分类与推荐系统

On the Complexity of View Update Analysis and Its Application to Annotation Propagation

A Uniform Dependency Language for Improving Data Quality

Performance Guarantees for Distributed Reachability Queries

基于实体描述属性技术的XML重复对象检测方法

一种非清洁数据库的数据模型

复杂数据上的实体识别技术研究

Towards certain fixes with editing rules and master data

Efficient community detection with additive constrains on large networks

基于树结构索引的带权值字符串的 Top-k 查询算法

Polymorphic queries for P2P systems

基于Map-Reduce的大数据实体识别算法

基于距离度量的实体识别算法

PEIF:基于并行机群的大数据实体识别算法

基于Map-Reduce的大数据缺失值填充算法

基于众包的电子商务数据实体分类系统

社交网络中基于分类属性的好友推荐

标签劣质的XML数据上的查询处理

MapReduce框架下基于字符串波形的实体识别方法

在线RFID多复杂事件查询处理技术

劣质数据库上阈值相似连接结果大小估计

基于实体描述属性技术的XML重复对象检测方法

一种非清洁数据库的数据模型

复杂数据上的实体识别技术研究

基于压缩直方图的劣质数据库上相似连接结果大小估计

Graph-based reference table construction to facilitate entity matching

Efficient subgraph matching on billion node graphs

RM树：一种支持字符串相似性操作的索引

多维代价图模型上最优路径查询问题的研究

时间依赖代价函数下的最优路径查询问题研究

基于实体的相似性连接算法

基于Map-Reduce的大数据实体识别算法

不一致数据上查询结果的一致性估计

基于键规则的XML实体抽取方法

基于标签权重评分的推荐模型及算法研究

基于子树匹配的相似xml连接方法的研究

基于距离度量的实体识别算法

PEIF:基于并行机群的大数据实体识别算法

基于Map-Reduce的大数据缺失值填充算法

基于众包的电子商务数据实体分类系统

一种扩展条件函数依赖的发现算法

社交网络中基于分类属性的好友推荐

无线传感器网络中基于双阈值的分布式监测算法

数据中心网络中的无线通信技术

劣质数据库上阈值相似连接结果大小估计

异构信息网上的可达性查询

基于图压缩的k可达查询处理

数据时效性修复问题的求解算法

不确定图上期望最短距离的计算

无线传感器网络中能量高效的Top-k监测算法

一种基站可移动传感器网络再编程协议

基于实体描述属性技术的XML重复对象检测方法

一种非清洁数据库的数据模型

无线传感器网络具有跟踪质量保证的节点选择算法

无线传感器网络中可容错的事件监测算法

电子商务商品归一化方法研究

复杂数据上的实体识别技术研究

基于压缩直方图的劣质数据库上相似连接结果大小估计

基于时空一体化的海洋大数据快速展示平台

一种基于空间相关性的海洋环境监测数据优化抽样方法

含排他性选择规则的主动规则集的汇流性判定方法

RM树：一种支持字符串相似性操作的索引

无线传感器网络中最小化通信开销的近似监测算法

多维代价图模型上最优路径查询问题的研究

时间依赖代价函数下的最优路径查询问题研究

基于实体的相似性连接算法

数据质量多种性质的关联关系研究

基于Map-Reduce的大数据实体识别算法

ArtiMate：一种以Artifact为中心的多粒度协作流程建模方法

基于关联数据的一致性和时效性清洗方法

基于图压缩的最大Steiner连通k核查询处理？

无线传感器网络在桥梁健康监测中的应用

无线传感器网络中移动协助的数据收集策略

不一致数据上查询结果的一致性估计

基于键规则的XML实体抽取方法

基于标签权重评分的推荐模型及算法研究

基于MapReduce的相似自连接新方法：过滤和内切圆算法

位置敏感的社交网中最小种集选取算法研究

基于任务合并的并行大数据清洗过程优化

无线传感器网络数据收集问题综述

无线传感器网络关键技术研究

Protect You More Than Blank： Anti-Learning Sensitive User Information in the Social Networks

大数据可用性的研究进展

基于x-tuple的概率阈值top-k查询算法

大数据质量管理：问题与研究进展

高效的实体匹配结果消解算法

Accurate Indoor Navigation System Using Human-Item Spatial Relation

实体识别问题的相关研究

数据时效性判定：关键理论和技术

PEIF:基于并行机群的大数据实体识别算法

基于Map-Reduce的大数据缺失值填充算法

基于众包的电子商务数据实体分类系统

Study of tide prediction method influenced by nonperiodic factors based on support vector machines

海洋信息管理系统的设计与实现

海洋大数据分级存储中迁移模型的研究

一种扩展条件函数依赖的发现算法

社交网络中基于分类属性的好友推荐

概率数据库中近似函数依赖挖掘算法

TSEA：极地科考在线系统中海量走航数据的剔除算法

期刊信息

《软件学报》
北大核心期刊（2011版）

主管单位:中国科学院
主办单位:中国科学院软件研究所中国计算机学会
主编：赵琛
地址：北京8718信箱中国科学院软件研究所
邮编：100190
邮箱：jos@iscas.ac.cn
电话：010-62562563

国际标准刊号：ISSN：1000-9825
国内统一刊号：ISSN：11-2560/TP
邮发代号:82-367

获奖情况:
2001年入选中国期刊方阵“双百期刊”,2000年荣获中国科学院优秀科技期刊一等奖

国内外数据库收录:
俄罗斯文摘杂志,美国数学评论（网络版）,波兰哥白尼索引,德国数学文摘,荷兰文摘与引文数据库,美国工程索引,美国剑桥科学文摘,英国科学文摘数据库,日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊（2004版）,中国北大核心期刊（2008版）,中国北大核心期刊（2011版）,中国北大核心期刊（2014版）,中国北大核心期刊（2000版）

被引量:54609