东篱科研大数据发现系统（DRDS）

位置：成果数据库 > 期刊 > 期刊详情页

海量数据上的近似连接聚集操作

ISSN号：0254-4164
期刊名称：计算机学报
时间：0
页码：1919-1933
分类：TP311[自动化与计算机技术—计算机软件与理论;自动化与计算机技术—计算机科学与技术]
作者机构：[1]哈尔滨工业大学计算机科学与技术学院,哈尔滨150001, [2]哈尔滨工业大学基础与交叉科学研究院高性能计算中心,哈尔滨150001
相关基金：本课题得到国家“九七三”重点基础研究发展规划项目基金（2006CB303005）、国家自然科学基金（60903016,60533110,60773063）、新世纪优秀人才支持计划（NCET-05-0333）、黑龙江省教育厅科学技术研究项目（11531276）与NSFC-RGC of China（60831160525）资助.
相关项目：基于云计算环境的TB/PB级海量数据查询处理技术的研究

关键词： pε-近似连接聚集, 连接位置索引对表, 连接随机样本, 海量数据, ρε-AJA, join positional index pair table, join random sample, massive data

中文摘要：

连接聚集操作是一种常用并且非常耗时的数据库操作.相对于准确查询,满足用户给定置信区间的近似结果由于其快得多的响应时间,更受用户的欢迎.作者分析发现现有的工作无法以既高效又满足给定的任意置信区间方式来处理近似连接聚集,因此提出了一种新的算法——（p,ε）-近似连接聚集查询（pε-AJA）来有效地返回满足任意置信区间的近似连接聚集结果.文章提出且预计算两个数据结构：连接随机样本（JRS）和连接位置索引对表（JPIPT）.利用JRS,pε-AJA向用户返回近似结果的快速响应.如果利用JRS得到的近似结果没有满足给定的置信区间,pε-AJA利用JPIPT获得更多的随机连接元组.文中提出一种采样算法来获得JPIPT给定数量的样本,并且利用获得的JPIPT样本,该文提出的算法可通过对连接表的一遍顺序扫描获得连接元组.该文还提供了JPIPT和JRS有效的构建和维护算法.实验结果表明：pε-AJA可以获得相对于准确查询1～5个数量级的加速,并且可以有效地完成JPIPT和JRS的构建和维护操作.

英文摘要：

Join aggregate is a commonly used but time-consuming operation in database. Compa- ring to exact queries, approximate results satisfying user-specified confidence intervals are more attractive for their much faster responses. None of the previous work can process approximate join aggregate with both high efficiency and an arbitrarily specified confidence interval. This pa- per proposes a novel algorithm, （p,e） Approximate Join Aggregate （pe-AJA）, which is able to return approximate results for arbitrary confidence interval efficiently. Two data structures, join random sample （JRS） and join positional index pair table （JPIPT）, are presented and pre-compu- ted in ρε-AJA, ρε-AJA first makes use of JRS to make a quick response of approximate results to users. If the approximate results from JRS do not satisfy the given confidence interval, JPIPT is exploited to obtain more random join tuples. A sampling algorithm is provided to sample JPIPT tuples of specified size. Algorithms are also presented to retrieve join tuples by sampled JPIPT tuples in one pass sequential scan. The construction and maintenance of JPIPT and JRS are pro- vided in this paper. The experimental results show that ρε-AJA obtains approximate results for arbitrary confidence intervals with a speedup by 1 to 5 orders of magnitude compared to exact queries and the update operations for JPIPT and JRS are efficient.

同期刊论文项目

大型图数据库系统关键技术研究

期刊论文 44 会议论文 7

传感器网络系统基础软件及数据管理关键技术研究

期刊论文 129 会议论文 75 专利 13

基于云计算环境的TB/PB级海量数据查询处理技术的研究

期刊论文 17 会议论文 1

非确定传感网数据整合

期刊论文 31

同项目期刊论文

一种高效频繁子图挖掘算法

传感器网络中一种基于多元回归模型的缺失值估计算法

传感器网络中一种基于两阶段睡眠调度的目标跟踪协议

TKEP:海量数据上一种有效的Top-K查询处理算法

无线传感器网络中一种近似Skyline查询处理算法

基于DAG解构的图近似包含查询算法

基于最小生成树的图数据库索引算法

不确定图数据库中高效查询处理

Mining Top-K Graph Patterns that Jointly Maximize Some Significance Measure

XCluster：一种基于聚类支持查询的XML多文档压缩方法

一种多到一子图同构检测方法

从图数据库中挖掘频繁跳跃模式

不确定数据上两种查询的分布式聚集算法

传感器网络中一种基于时-空相关性的缺失值估计算法

演变图上的连接子图演变模式挖掘

基于Schema提取可压缩结构实现生物XML数据压缩

基于联合意义度量的Top-K图模式挖掘

从不确定图中挖掘频繁子图模式

不确定图数据管理研究现状

IC：动态社会关系网络社区结构的增量识别算法

基于通信半径动态调整的无线传感器网络密钥管理协议

一种适用于无线传感器网络的健壮的有序定位算法

XML数据流上的高效聚集算法

RB树:一种支持空间近似关键字查询的外存索引

RM树：一种支持字符串相似性操作的索引

多维代价图模型上最优路径查询问题的研究

时间依赖代价函数下的最优路径查询问题研究

节点与决策模式两段式映射的子图查询算法

DBCC-Join：一种新的高速缓存敏感的磁盘连接算法

P2P网络中时变数据的近似聚集方法

基于2-hop优化的子图模式匹配算法

云计算系统中查询处理及优化技术研究综述

图结构XML文档上子图查询的高效处理算法

外存中高效的字符串相似性查询处理

DBCC-Join: A novel cache-conscious disk-based join algorithm

TKEP:海量数据上一种有效的Top-K查询处理算法

TJJE: An efficient algorithm for top-k join on massive data

Ad-hoc aggregate query processing algorithms based on bit-store for query intensive applications in

RB树:一种支持空间近似关键字查询的外存索引

RM树：一种支持字符串相似性操作的索引

PAA：海量数据上一种有效的近似聚集查询算法

多维代价图模型上最优路径查询问题的研究

时间依赖代价函数下的最优路径查询问题研究

一种有效的海量数据Top—k Dominating查询算法

DBCC-Join：一种新的高速缓存敏感的磁盘连接算法

基于MPI的二维泊松方程差分并行实现与测试

云计算系统中查询处理及优化技术研究综述

外存中高效的字符串相似性查询处理

一种基于概率模型的预测性时空区域查询处理

无线传感器网络专刊前言

一种高效频繁子图挖掘算法

一种P2P电子商务系统中基于声誉的信任机制

一种支持 QoS 的传感器网络拓扑控制算法的设计与仿真

Gradient Boundary Detection-based Construction for Time Series Snapshots in Sensor Networks

Data Sampling Control, Compression and Query in sensor Networks

VMNet: Realistic emulation of wireless sensor networks

Energy-efficient localized topology control algorithms in IEEE 802.15.4-based sensor networks

传感器网络中基于环的负载平衡数据存储方法

Distributed multi-join query processing in data grids

点能量密度平衡的无线传感器网络基站移动策略

EasiTOD: 一种降低传感器网络时效障碍物干扰的检测调节机制 [J]

一种无线传感器网络分布式安全成簇协议

传感器网络中一种基于多元回归模型的缺失值估计算法

一种低计算复杂度的无线传感器网络分簇定位算法

不确定图数据库中的高效查询处理

传感器网络中一种基于两阶段睡眠调度的目标跟踪协议

无线传感器网络中一种能源有效的移动对象跟踪方法

Wireless sensor networks in relic protection: deploymnet methodology and cross-layer design

Query translation from XPath to SQL in the presence of recursive DTDs

Passive Diagnosis for Wireless Sensor Networks

Continuously Evaluating Approximate Similarity Search over High Dimension Data Streams

Virtual Surrounding Face Geocasting with Guaranteed Message Delivery for Ad Hoc and Sensor Networks

Constructing Minimum Connected Dominating Sets with Bounded Diameters in Wireless Networks

基于 BP 神经网络的无线传感器网络的拥塞控制算法

无线传感器网络中基于模型拟合的可信近似查询处理算法

无线传感器网络的研究进展

传感器网络中数据驱动的睡眠调度机制

Improved Feistel-based ciphers for wireless sensor network security

EasiCC: 一种保证带宽公平性的传感器网络拥塞控制机制

EasiFCCT: 一种保证连通性的传感器网络局部覆盖算法

Non-Threshold based Event Detection for 3D Environment Monitoring in Sensor Networks

Signature File Based Approach to Answer Queries over Wireless Sensor Networks

MOCUS: Moving Object Counting Using Ultrasonic Sensor Networks

Learning adaptive temporal radio maps for signal-strength-based location estimation

Clustered chain path index for XML document: Efficiently processing branch queries

TKEP:海量数据上一种有效的Top-K查询处理算法

无线传感器网络中一种近似Skyline查询处理算法

不确定图数据库中高效查询处理

Delay Bounded and Energy Efficient Composite Event Monitoring in Heterogeneous Wireless Sensor Netwo

P2P 网络中时变数据的近似聚集方法

HERO: Online Real-Time Vehicle Tracking

一种多到一子图同构检测方法

不确定数据上两种查询的分布式聚集算法

传感器网络中一种基于时-空相关性的缺失值估计算法

无线传感器网络环境下时-空查询处理方法

New algorithm for computing cube on very large compressed data sets

Energy efficient adaptive message transmission algorithm for wireless sensor networks

一种均衡能量的无线传感器网络分布式数据存储方法

无线传感器网络中一种基于小波变换的数据压缩方法

Mining Frequent Subgraph Patterns from Uncertain Graph Data

演变图上的连接子图演变模式挖掘

一种多到一子图同构检测的新方法

基于联合意义度量的 Top-K 图模式挖掘

无线传感器网络上的极值区域查询处理

稀疏无线传感器网络移动节点定位算法

无线传感器网络一种不相交路径路由算法

基于联合意义度量的Top-K图模式挖掘

从不确定图中挖掘频繁子图模式

基于通信半径动态调整的无线传感器网络密钥管理协议

一种适用于无线传感器网络的健壮的有序定位算法

无线传感器网络分布式单向链路检测算法

传感器网络中节点个数约束查询处理算法

无线传感器网络中的数据融合及其能效评估

EasiCC:一种保证带宽公平性的传感器网络拥塞控制机制

EasiFCCT:一种保证连通性的传感器网络局部覆盖算法

压缩数据库中一种自适应直方图的构建

XML数据流上的高效聚集算法

RB树:一种支持空间近似关键字查询的外存索引

基于全局感知区域的传感器网络概率检测配置方法

传感器网络中环境感知的拓扑控制算法

无线传感器网络中基于预测的能量优化方法及其验证

一种无线传感器网络中基于聚类索引的区域查询处理方法

无线传感器网络中能源有效的任务分配算法

一种有效的挖掘数据流近似频繁项算法

RM树：一种支持字符串相似性操作的索引

多维代价图模型上最优路径查询问题的研究

时间依赖代价函数下的最优路径查询问题研究

一种XML数据库的数据模型

节点与决策模式两段式映射的子图查询算法

DBCC-Join：一种新的高速缓存敏感的磁盘连接算法

P2P网络中时变数据的近似聚集方法

基于2-hop优化的子图模式匹配算法

XCluster：基于聚类支持查询的XML多文档压缩方法

无线传感器网络中（ε,δ）-近似聚集算法

无线传感器网络能源有效的拥塞控制算法

无线传感器网络中一种避免节点拥塞的算法

EasiTOD：一种降低传感器网络时效障碍物干扰的检测调节机制

一种无线传感网络中基于聚类索引的区域查询处理方法

动态图结构XML数据上的查询处理算法

大规模传感器网络随机睡眠调度节能机制

基于区间编码的图结构XML数据上DAG匹配算法

EasyQuerier:一种基于关键词的Web集成查询接口

一种移动对象数据库全时态区域查询处理方法

数据网格资源选择优化模型

一种数据网格存储模型与并行下载调度算法

一种大规模传感器网络节能数据发布协议

传感器网络中具有负载平衡的移动协助数据收集模式

无线传感器网络中能源高效的任务分配算法

基于统计的无线传感器网络时钟同步协议

一种预测性连续时空区域查询处理方法

一种数据网格容灾存储模型及其数据失效模型

Coordinated node scheduling for energy-conserving in large wireless sensor networks

Wireless sensor networks in relic protection： deployment methodology and cross-layer design

图结构XML文档上子图查询的高效处理算法

一种无线传感器网络拥塞控制机制

SAJ:以最小化空间代价为目标的F&B索引构建算法

外存中高效的字符串相似性查询处理

无线传感器网络中基于双阈值的分布式监测算法

传感器网络中一种基于多元回归模型的缺失值估计算法

TKEP:海量数据上一种有效的Top-K查询处理算法

无线传感器网络中一种近似Skyline查询处理算法

不确定图数据库中高效查询处理

从图数据库中挖掘频繁跳跃模式

不确定数据上两种查询的分布式聚集算法

传感器网络中一种基于时-空相关性的缺失值估计算法

无线传感器网络中ε-近似区域聚集算法

演变图上的连接子图演变模式挖掘

无线传感器网络一种不相交路径路由算法

无线传感器网络中能量高效的Top-k监测算法

一种基站可移动传感器网络再编程协议

无线传感器网络中可容错的事件监测算法

PAA：海量数据上一种有效的近似聚集查询算法

一种有效的海量数据Top—k Dominating查询算法

基于实体的相似性连接算法

ε-近似和加权公平性保证的无线传感器网络拥塞控制算法

无线传感器网络高可靠低维护地理路由协议

混合无线传感器网络中的网关部署算法

DBCC-Join：一种新的高速缓存敏感的磁盘连接算法

基于2-hop优化的子图模式匹配算法

XCluster：基于聚类支持查询的XML多文档压缩方法

无线传感器网络中（ε,δ）-近似聚集算法

基于子树匹配的相似xml连接方法的研究

无线传感器网络关键技术研究

Minimum-Time Aggregation Scheduling in Duty-Cycled Wireless Sensor Networks

期刊信息

《计算机学报》
北大核心期刊（2011版）

主管单位:中国科学院
主办单位:中国计算机学会中国科学院计算技术研究所
主编：孙凝晖
地址：北京中关村科学院南路6号
邮编：100190
邮箱：cjc@ict.ac.cn
电话：010-62620695

国际标准刊号：ISSN：0254-4164
国内统一刊号：ISSN：11-1826/TP
邮发代号:2-833

获奖情况:
中国期刊方阵“双效”期刊

国内外数据库收录:
美国数学评论（网络版）,荷兰文摘与引文数据库,美国工程索引,美国剑桥科学文摘,日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊（2004版）,中国北大核心期刊（2008版）,中国北大核心期刊（2011版）,中国北大核心期刊（2014版）,中国北大核心期刊（2000版）

被引量:48433