东篱科研大数据发现系统（DRDS）

位置：成果数据库 > 期刊 > 期刊详情页

基于Map-Reduce的海量数据高效Skyline查询处理

ISSN号：0254-4164
期刊名称：计算机学报
时间：2011.10.1
页码：1785-1796
分类：TP311[自动化与计算机技术—计算机软件与理论;自动化与计算机技术—计算机科学与技术]
作者机构：[1]医学影像计算教育部重点实验室（东北大学）,沈阳110819, [2]东北大学信息科学与工程学院,沈阳110819
相关基金：国家自然科学基金重点项目（60933001）; 国家杰出青年科学基金（61025007）; 中央高校基本科研业务费专项基金（N090304007）资助
相关项目：不确定图数据管理与分析技术

关键词：云计算, Skyline查询, MAP-REDUCE, 海量数据, HADOOP, cloud computing, skyline query, Map-Reduce, massive data, hadoop

中文摘要：

Skyline查询已成为现今数据库和信息检索领域的研究热点之一,伴随着人类可以采集和利用的数据信息的急剧增长,使得如何处理海量数据的Skyline查询成为急需解决的问题.近年来兴起的Map-Reduce编程框架能够有效地处理基于海量数据的应用,该文既是研究如何运用Map-Reduce编程框架解决海量数据的Skyline查询问题.在Map-Reduce框架下处理Skyline查询的直接方法是扫描整个数据集进而得到查询结果,但是在海量数据Skyline查询问题中,查询结果的数量远小于原始数据集的数据量,对此该文提出了一系列的Skyline查询算法及优化,有效地过滤掉部分不能成为Skyline查询结果的数据对象,大幅度提高了在Map-Reduce框架下处理Skyline查询的效率.大量运行在Hadoop平台上的实验验证了该文所提出的Skyline查询处理算法具有良好的有效性、准确性和可用性.

英文摘要：

Recently,Skyline query has been a research hot of Database and Information Retrieval.In addition,the amount of data for collecting and using by human is developing at an astonishing speed.Therefore,how to process Skyline query of massive data is an urgent problem.Map-Reduce is a new parallel programming model that processes vast number of data on large clusters with easy deployment.As a parallel programming model,Map-Reduce is suit for solving Skyline query of massive data.This paper resolves the problem of processing Skyline query of massive data on Map-Reduce framework.A straightforward implementation of Skyline query on Map-Reduce needs to scan all the candidate results before obtaining the final results.However,when the amount of final results is much smaller than the original data,there is a waste of processing unnecessary results on Map-Reduce framework.Consequently,in this paper,a series of efficient Skyline query algorithms and optimization have been proposed to prune the unpromising results effectively and enhance the performance of processing Skyline query of massive data on Map-Reduce.Our extensive experiments are built on top of Hadoop platform,an open-source implementation of Map-Reduce framework.The experiment results demonstrate that our algorithms have high efficiency,accuracy and scalability.

同期刊论文项目

不确定图数据管理与分析技术

期刊论文 44 会议论文 27

不确定数据管理的理论与关键技术

期刊论文 108 会议论文 33

同项目期刊论文

一种基于概率图模型的不确定性数据世系表示方法

无线传感器网络中基于双阈值的分布式监测算法

一种新的高效图聚集算法

基于双分支特征编码的子图查询处理算法

Sliding-window Top-k Queries on Uncertain Streams.

EQPN:数据中不确定性知识的定性表示及推理

GameTraffic:基于交通调度历史数据挖掘的路口最优调度及道路改造预测

异构信息网上的可达性查询

Efficiently Mining Time-Delayed Gene Expression Patterns.

Efficient and effective similarity search over probabilistic data based on earth mover's distance

Sliding-window top-k queries on uncertain streams

Outlier Detection over Sliding Windows for Probabilistic Data Streams

面向不确定图的概率可达查询

一种面向不确定对象的可见k 近邻查询算法

基于监控对象动态聚簇的高效rfid数据清洗模型

无线传感器网络中ε-近似区域聚集算法

演变图上的连接子图演变模式挖掘

Collection in Multi-Application Sharing Wireless Sensor Networks

An approach for reducing the graphical model and genetic algorithm for computing approximate Nash eq

一种障碍空间中不确定对象的连续最近邻查询方法

基于阈值的概率图可达查询

基于动态概率路径事件模型的rfid数据填补算法

Optimal Resource Placement in Structured Peer-to-Peer Networks

基于Prüfer序列的RDF数据索引与查询

不确定数据流上的概率反轮廓查询处理

无线传感器网络中能量高效的Top-k监测算法

一种基站可移动传感器网络再编程协议

一种局部相关不确定数据库快照集合上的概率频繁最近邻算法

针对泊松流的截止期敏感的复杂事件处理资源分配模型

面向存在不确定对象的组最近邻查询方法

半限制空间内的RFID可能性k-近邻查询技术

一个通用最优的动态网络构建框架

MR-Tree: An efficient index for Map-Reduce

数据世系管理技术研究综述

一种不确定数据流聚类算法

PI-Join: Efficiently processing join queries on massive data

不确定移动对象的查询处理技术研究综述

基于实体描述属性技术的XML重复对象检测方法

一种非清洁数据库的数据模型

P2P环境下面向不确定数据的Top-k查询

A novel approach towards large scale cross-media retrieval

无线传感器网络具有跟踪质量保证的节点选择算法

无线传感器网络中可容错的事件监测算法

无线传感器网络中Skyline节点连续查询算法

ComMapReduce: An Improvement of MapReduce with Lightweight Communication Mechanisms

Improving SPARQL query performance with algebraic expression tree based caching and entity caching

An Efficient Method for Cleaning Dirty-Events over Uncertain Data in WSNs

面向不确定感知数据的频繁项查询算法

面向不确定图的k最近邻查询

基于对象异常频度的数据流阈值查询

无线传感器网络中最小化通信开销的近似监测算法

一种ρ-支配轮廓查询的高效处理算法

基于Map-Reduce的大数据实体识别算法

ε-近似和加权公平性保证的无线传感器网络拥塞控制算法

无线传感器网络高可靠低维护地理路由协议

混合无线传感器网络中的网关部署算法

基于监控对象动态聚簇的高效IⅦID数据清洗模型

Improving SPARQL query performance with algebraic expression tree based caching and entity caching

云计算系统中查询处理及优化技术研究综述

基于任务合并的并行大数据清洗过程优化

基于星型模式的一个多路top-k join算法

基于子树匹配的相似xml连接方法的研究

基于距离度量的实体识别算法

无线传感器网络数据收集问题综述

无线传感器网络关键技术研究

Minimum-Time Aggregation Scheduling in Duty-Cycled Wireless Sensor Networks

基于滑动窗口的Top-K概率频繁项查询算法研究

社交网络中基于分类属性的好友推荐

Continuous Outlier Monitoring on Uncertain Data Streams

Probability based voting extreme learning machine for multiclass XML documents classification

基于Prüfer序列的RDF数据索引与查询

Subspace Global Skyline Query Processing

XML document classification based on ELM

不确定数据流上的概率反轮廓查询处理

数据库性能测试可视化工具VisualDBBench及面向内存数据库的应用

<span style="background:white;color:black;font-family:"Verdana",sans-serif

Efficient keyword search on uncertain graph data

一个通用最优的动态网络构建框架

P2P环境下面向不确定数据的Top-k查询

A novel approach towards large scale cross-media retrieval

一个基于概率潜语义分析的多模态多媒体检索模型

Discovering semantic associations between Web services based on the electrostatic force theory.

Top-k query processing over uncertain data in distributed environments

无线传感器网络中Skyline节点连续查询算法

<h1 class="svTitle" id="tit0005" style="color:#5C5C5C;text-indent:0px;ve

面向不确定感知数据的频繁项查询算法

一种ρ-支配轮廓查询的高效处理算法

二分类图上的非冗余协同图模式挖掘算法

内存数据库的可用性综述

Improving SPARQL query performance with algebraic expression tree based caching and entity caching

基于滑动窗口的Top-K概率频繁项查询算法研究

概率XML数据上的ELCA关键字检索

期刊信息

《计算机学报》
北大核心期刊（2011版）

主管单位:中国科学院
主办单位:中国计算机学会中国科学院计算技术研究所
主编：孙凝晖
地址：北京中关村科学院南路6号
邮编：100190
邮箱：cjc@ict.ac.cn
电话：010-62620695

国际标准刊号：ISSN：0254-4164
国内统一刊号：ISSN：11-1826/TP
邮发代号:2-833

获奖情况:
中国期刊方阵“双效”期刊

国内外数据库收录:
美国数学评论（网络版）,荷兰文摘与引文数据库,美国工程索引,美国剑桥科学文摘,日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊（2004版）,中国北大核心期刊（2008版）,中国北大核心期刊（2011版）,中国北大核心期刊（2014版）,中国北大核心期刊（2000版）

被引量:48433