东篱科研大数据发现系统（DRDS）

位置：成果数据库 > 期刊 > 期刊详情页

TKEP:海量数据上一种有效的Top-K查询处理算法

ISSN号：0254-4164
期刊名称：计算机学报
时间：0
页码：1405-1417
分类：TP311[自动化与计算机技术—计算机软件与理论;自动化与计算机技术—计算机科学与技术]
作者机构：[1]哈尔滨工业大学计算机科学与技术学院,哈尔滨150001, [2]哈尔滨工业大学基础与交叉科学研究院高性能计算中心,哈尔滨150001
相关基金：国家“九七三”重点基础研究发展规划项目基金（2006CB303005）; 国家自然科学基金（60903016 60533110 60773063）; 新世纪优秀人才支持计划（NCET-05-0333）; 黑龙江省教育厅科学技术研究项目（11531276）; NSFC-RGC of China（60831160525）资助
相关项目：基于云计算环境的TB/PB级海量数据查询处理技术的研究

关键词：海量数据, TOP-K, 早剪切, TKEP, massive data, top-k, early pruning, Top-K with Early Pruning

中文摘要：

在许多应用领域中,top-k查询是一种十分重要的操作,它根据给定的评分函数在潜在的巨大的数据空间中返回k个最重要的对象.不同于传统的TA算法,NRA算法只需要顺序读就可以处理top-k查询,从而适合于随机读受限或不可能的场合.文中详细地分析了NRA算法的执行行为,确定了增长阶段和收缩阶段中每个文件需要扫描的元组个数.文中发现在海量数据环境中,NRA在增长阶段需要维护大量的候选元组,严重影响了算法的执行效率.所以,文中提出一种新的海量数据上的top-k查询算法TKEP,该算法在查询的增长阶段就执行早剪切,从而大大减少增长阶段需要维护的候选元组.文中给出了早剪切操作的数学分析,确定了早剪切操作的理论和实际剪切效果.据作者所知,该文是第一篇提出在top-k查询的增长阶段执行早剪切的文章.实验结果表明,和传统的NRA相比,TKEP在增长阶段维护的元组数量减少3个数量级,需要的内存量减少1个数量级,TKEP算法获得1个数量级的加速比.

英文摘要：

In many application fields,top-k is an important operation since it returns k most important objects according to a given ranking function.Different from traditional TA algorithms,NRA only requires sequential access to return top-k results so that it can be used in environment where random access is limited or impossible.This paper analyzes the execution behavior of NRA and determines tuple number to scan in increasing and shrinking phase.It is found that in massive data context,NRA needs to maintain large quantity of candidate tuples in increasing phase which affects algorithm efficiency significantly.This paper proposes a novel top-k algorithm TKEP（Top-K with Early Pruning） on massive data which performs early pruning in increasing phase to prune most of candidate tuples.This paper provides mathematical analysis of early pruning and proves its theoretical and practical pruning effect.To the best of our knowledge,it is the first paper to provide early pruning in top-k processing.The extensive experiments show that compared to NRA,TKEP maintains less tuples by a factor of three orders of magnitude,it consumes less memory by a factor of an order of magnitude and TKEP achieves substantial performance speed-up of an order of magnitude.

同期刊论文项目

传感器网络系统基础软件及数据管理关键技术研究

期刊论文 129 会议论文 75 专利 13

非确定传感网数据整合

期刊论文 31

基于云计算环境的TB/PB级海量数据查询处理技术的研究

期刊论文 17 会议论文 1

大型图数据库系统关键技术研究

期刊论文 44 会议论文 7

同项目期刊论文

一种高效频繁子图挖掘算法

传感器网络中一种基于多元回归模型的缺失值估计算法

传感器网络中一种基于两阶段睡眠调度的目标跟踪协议

海量数据上的近似连接聚集操作

无线传感器网络中一种近似Skyline查询处理算法

基于DAG解构的图近似包含查询算法

基于最小生成树的图数据库索引算法

不确定图数据库中高效查询处理

Mining Top-K Graph Patterns that Jointly Maximize Some Significance Measure

XCluster：一种基于聚类支持查询的XML多文档压缩方法

一种多到一子图同构检测方法

从图数据库中挖掘频繁跳跃模式

不确定数据上两种查询的分布式聚集算法

传感器网络中一种基于时-空相关性的缺失值估计算法

演变图上的连接子图演变模式挖掘

基于Schema提取可压缩结构实现生物XML数据压缩

基于联合意义度量的Top-K图模式挖掘

从不确定图中挖掘频繁子图模式

不确定图数据管理研究现状

IC：动态社会关系网络社区结构的增量识别算法

基于通信半径动态调整的无线传感器网络密钥管理协议

一种适用于无线传感器网络的健壮的有序定位算法

XML数据流上的高效聚集算法

RB树:一种支持空间近似关键字查询的外存索引

RM树：一种支持字符串相似性操作的索引

多维代价图模型上最优路径查询问题的研究

时间依赖代价函数下的最优路径查询问题研究

节点与决策模式两段式映射的子图查询算法

DBCC-Join：一种新的高速缓存敏感的磁盘连接算法

P2P网络中时变数据的近似聚集方法

基于2-hop优化的子图模式匹配算法

云计算系统中查询处理及优化技术研究综述

图结构XML文档上子图查询的高效处理算法

外存中高效的字符串相似性查询处理

海量数据上的近似连接聚集操作

DBCC-Join: A novel cache-conscious disk-based join algorithm

TJJE: An efficient algorithm for top-k join on massive data

Ad-hoc aggregate query processing algorithms based on bit-store for query intensive applications in

RB树:一种支持空间近似关键字查询的外存索引

RM树：一种支持字符串相似性操作的索引

PAA：海量数据上一种有效的近似聚集查询算法

多维代价图模型上最优路径查询问题的研究

时间依赖代价函数下的最优路径查询问题研究

一种有效的海量数据Top—k Dominating查询算法

DBCC-Join：一种新的高速缓存敏感的磁盘连接算法

基于MPI的二维泊松方程差分并行实现与测试

云计算系统中查询处理及优化技术研究综述

外存中高效的字符串相似性查询处理

一种基于概率模型的预测性时空区域查询处理

无线传感器网络专刊前言

一种高效频繁子图挖掘算法

一种P2P电子商务系统中基于声誉的信任机制

一种支持 QoS 的传感器网络拓扑控制算法的设计与仿真

Gradient Boundary Detection-based Construction for Time Series Snapshots in Sensor Networks

Data Sampling Control, Compression and Query in sensor Networks

VMNet: Realistic emulation of wireless sensor networks

Energy-efficient localized topology control algorithms in IEEE 802.15.4-based sensor networks

传感器网络中基于环的负载平衡数据存储方法

Distributed multi-join query processing in data grids

点能量密度平衡的无线传感器网络基站移动策略

EasiTOD: 一种降低传感器网络时效障碍物干扰的检测调节机制 [J]

一种无线传感器网络分布式安全成簇协议

传感器网络中一种基于多元回归模型的缺失值估计算法

一种低计算复杂度的无线传感器网络分簇定位算法

不确定图数据库中的高效查询处理

传感器网络中一种基于两阶段睡眠调度的目标跟踪协议

无线传感器网络中一种能源有效的移动对象跟踪方法

Wireless sensor networks in relic protection: deploymnet methodology and cross-layer design

Query translation from XPath to SQL in the presence of recursive DTDs

Passive Diagnosis for Wireless Sensor Networks

Continuously Evaluating Approximate Similarity Search over High Dimension Data Streams

Virtual Surrounding Face Geocasting with Guaranteed Message Delivery for Ad Hoc and Sensor Networks

Constructing Minimum Connected Dominating Sets with Bounded Diameters in Wireless Networks

基于 BP 神经网络的无线传感器网络的拥塞控制算法

无线传感器网络中基于模型拟合的可信近似查询处理算法

无线传感器网络的研究进展

传感器网络中数据驱动的睡眠调度机制

Improved Feistel-based ciphers for wireless sensor network security

EasiCC: 一种保证带宽公平性的传感器网络拥塞控制机制

EasiFCCT: 一种保证连通性的传感器网络局部覆盖算法

Non-Threshold based Event Detection for 3D Environment Monitoring in Sensor Networks

Signature File Based Approach to Answer Queries over Wireless Sensor Networks

MOCUS: Moving Object Counting Using Ultrasonic Sensor Networks

Learning adaptive temporal radio maps for signal-strength-based location estimation

Clustered chain path index for XML document: Efficiently processing branch queries

海量数据上的近似连接聚集操作

无线传感器网络中一种近似Skyline查询处理算法

不确定图数据库中高效查询处理

Delay Bounded and Energy Efficient Composite Event Monitoring in Heterogeneous Wireless Sensor Netwo

P2P 网络中时变数据的近似聚集方法

HERO: Online Real-Time Vehicle Tracking

一种多到一子图同构检测方法

不确定数据上两种查询的分布式聚集算法

传感器网络中一种基于时-空相关性的缺失值估计算法

无线传感器网络环境下时-空查询处理方法

New algorithm for computing cube on very large compressed data sets

Energy efficient adaptive message transmission algorithm for wireless sensor networks

一种均衡能量的无线传感器网络分布式数据存储方法

无线传感器网络中一种基于小波变换的数据压缩方法

Mining Frequent Subgraph Patterns from Uncertain Graph Data

演变图上的连接子图演变模式挖掘

一种多到一子图同构检测的新方法

基于联合意义度量的 Top-K 图模式挖掘

无线传感器网络上的极值区域查询处理

稀疏无线传感器网络移动节点定位算法

无线传感器网络一种不相交路径路由算法

基于联合意义度量的Top-K图模式挖掘

从不确定图中挖掘频繁子图模式

基于通信半径动态调整的无线传感器网络密钥管理协议

一种适用于无线传感器网络的健壮的有序定位算法

无线传感器网络分布式单向链路检测算法

传感器网络中节点个数约束查询处理算法

无线传感器网络中的数据融合及其能效评估

EasiCC:一种保证带宽公平性的传感器网络拥塞控制机制

EasiFCCT:一种保证连通性的传感器网络局部覆盖算法

压缩数据库中一种自适应直方图的构建

XML数据流上的高效聚集算法

RB树:一种支持空间近似关键字查询的外存索引

基于全局感知区域的传感器网络概率检测配置方法

传感器网络中环境感知的拓扑控制算法

无线传感器网络中基于预测的能量优化方法及其验证

一种无线传感器网络中基于聚类索引的区域查询处理方法

无线传感器网络中能源有效的任务分配算法

一种有效的挖掘数据流近似频繁项算法

RM树：一种支持字符串相似性操作的索引

多维代价图模型上最优路径查询问题的研究

时间依赖代价函数下的最优路径查询问题研究

一种XML数据库的数据模型

节点与决策模式两段式映射的子图查询算法

DBCC-Join：一种新的高速缓存敏感的磁盘连接算法

P2P网络中时变数据的近似聚集方法

基于2-hop优化的子图模式匹配算法

XCluster：基于聚类支持查询的XML多文档压缩方法

无线传感器网络中（ε,δ）-近似聚集算法

无线传感器网络能源有效的拥塞控制算法

无线传感器网络中一种避免节点拥塞的算法

EasiTOD：一种降低传感器网络时效障碍物干扰的检测调节机制

一种无线传感网络中基于聚类索引的区域查询处理方法

动态图结构XML数据上的查询处理算法

大规模传感器网络随机睡眠调度节能机制

基于区间编码的图结构XML数据上DAG匹配算法

EasyQuerier:一种基于关键词的Web集成查询接口

一种移动对象数据库全时态区域查询处理方法

数据网格资源选择优化模型

一种数据网格存储模型与并行下载调度算法

一种大规模传感器网络节能数据发布协议

传感器网络中具有负载平衡的移动协助数据收集模式

无线传感器网络中能源高效的任务分配算法

基于统计的无线传感器网络时钟同步协议

一种预测性连续时空区域查询处理方法

一种数据网格容灾存储模型及其数据失效模型

Coordinated node scheduling for energy-conserving in large wireless sensor networks

Wireless sensor networks in relic protection： deployment methodology and cross-layer design

图结构XML文档上子图查询的高效处理算法

一种无线传感器网络拥塞控制机制

SAJ:以最小化空间代价为目标的F&B索引构建算法

外存中高效的字符串相似性查询处理

无线传感器网络中基于双阈值的分布式监测算法

传感器网络中一种基于多元回归模型的缺失值估计算法

海量数据上的近似连接聚集操作

无线传感器网络中一种近似Skyline查询处理算法

不确定图数据库中高效查询处理

从图数据库中挖掘频繁跳跃模式

不确定数据上两种查询的分布式聚集算法

传感器网络中一种基于时-空相关性的缺失值估计算法

无线传感器网络中ε-近似区域聚集算法

演变图上的连接子图演变模式挖掘

无线传感器网络一种不相交路径路由算法

无线传感器网络中能量高效的Top-k监测算法

一种基站可移动传感器网络再编程协议

无线传感器网络中可容错的事件监测算法

PAA：海量数据上一种有效的近似聚集查询算法

一种有效的海量数据Top—k Dominating查询算法

基于实体的相似性连接算法

ε-近似和加权公平性保证的无线传感器网络拥塞控制算法

无线传感器网络高可靠低维护地理路由协议

混合无线传感器网络中的网关部署算法

DBCC-Join：一种新的高速缓存敏感的磁盘连接算法

基于2-hop优化的子图模式匹配算法

XCluster：基于聚类支持查询的XML多文档压缩方法

无线传感器网络中（ε,δ）-近似聚集算法

基于子树匹配的相似xml连接方法的研究

无线传感器网络关键技术研究

Minimum-Time Aggregation Scheduling in Duty-Cycled Wireless Sensor Networks

期刊信息

《计算机学报》
北大核心期刊（2011版）

主管单位:中国科学院
主办单位:中国计算机学会中国科学院计算技术研究所
主编：孙凝晖
地址：北京中关村科学院南路6号
邮编：100190
邮箱：cjc@ict.ac.cn
电话：010-62620695

国际标准刊号：ISSN：0254-4164
国内统一刊号：ISSN：11-1826/TP
邮发代号:2-833

获奖情况:
中国期刊方阵“双效”期刊

国内外数据库收录:
美国数学评论（网络版）,荷兰文摘与引文数据库,美国工程索引,美国剑桥科学文摘,日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊（2004版）,中国北大核心期刊（2008版）,中国北大核心期刊（2011版）,中国北大核心期刊（2014版）,中国北大核心期刊（2000版）

被引量:48433