东篱科研大数据发现系统（DRDS）

位置：成果数据库 > 期刊 > 期刊详情页

基于概率的大数据查询系统——Probery

ISSN号：1001-9081
期刊名称：计算机应用
时间：2016.1.10
页码：8-12
分类：TP311[自动化与计算机技术—计算机软件与理论;自动化与计算机技术—计算机科学与技术]
作者机构：[1]东北大学软件学院,沈阳110819, [2]东北大学信息科学与工程学院,沈阳110819
相关基金：国家自然科学基金重大项目（61433008）; 国家自然科学青年基金资助项目（61202088）; 中国博士后科学基金面上项目（2013M540232）; 中央高校基本科研业务费专项（N120817001）; 教育部博士点基金资助项目（20120042110028）~~
相关项目：基于Hadoop的分布式并行联机分析处理技术研究

关键词：大数据, 概率查询, 查全概率, 分布式文件系统, MapReduce, big data, probability query, recall probability, Distributed File System（DFS）, MapReduce

中文摘要：

针对大数据环境下完整性查询时间代价消耗过高的问题,提出了一种采用近似完整性查询方法的系统——Probery。Probery所采用的近似完整性查询方法不同于传统的近似查询,其近似性主要体现为数据查全的可能性,是一种新型的数据查询方法。Probery首先将存入系统的数据划分为多个数据分段;然后,根据概率放置模型将各个数据分段的数据存储在分布式文件系统中;最后,对于给定的查询条件,Probery采用一种启发式查询方法进行概率查询。通过与其他主流的非关系型数据管理系统的查询性能进行比较,对Probery进行验证,Probery在损失8%查询完整性的情形下,查询时间较HBase相比节约了51%,较Cassandra相比节约了23%,较Mongo DB相比节约了12%,较Hive相比节约了3%。实验结果表明,Probery可以适当地损失查询完整性来提高数据的查询性能,具有较好的通用性、适应性和可扩展性。

英文摘要：

Since the time consumption of full-result query for big data is excessively high, the system Probery was proposed. Different from traditional approximate query, Probery adopted an approximate full-result query method, an original method to query data. The approximation of Probery referred to the probability of containing all data satisfying query conditions in query results. Firstly, Probery divided the data stored in system into multiple data segments. Secondly, Probery placed the data in Distributed File System（ DFS） according to the probability placing model. Finally, given a query condition, Probery adopted a heuristic query method to query data probably. The performance of query data was shown by comparing with other dominated non-relational data management system, in the case that the completeness of result set lost by 8%. The query time consumption of Probery was saved by 51% compared with HBase, by 23% compared with Cassandra, by 12% compared with Mongo DB, by 3% compared with Hive. The experimental results show that Probery improves the performance of query data when the completeness of query data losses appropriately. In addition, Probery has better generality, adaptability and extensibility for big data query.

同期刊论文项目

大数据高效能存储与管理方法研究

期刊论文 17

基于Hadoop的分布式并行联机分析处理技术研究

期刊论文 26 会议论文 15

云数据库系统能耗优化方法的研究

期刊论文 29 会议论文 2 获奖 1

同项目期刊论文

基于MapReduce的封闭数据立方

MQM:一种用于Web服务查找的多维QoS模型

OSF:一种支持SaaS应用的构件框架

一种面向BSP系统的多等待队列作业调度算法

一种优化MapReduce系统能耗的任务分发算法

面向社会媒体搜索的实体关系建模研究综述

De-duplication scheduling strategy in real-time data warehouse

基于角色和交互的SaaS软件生命周期推演模型

一种云计算环境下的能效模型和度量方法

MapReduce连接查询的I/O代价研究

OnFlyP:基于定向边交换的分布式在线大图划分算法

Asyn-SimRank:一种可异步执行的大规模SimRank算法

云数据管理系统能耗基准测试与分析

含有丰富结构化数据的Web页面分类技术的研究

面向属性级不确定数据的U-Topk查询优化算法的研究

BS P模型下基于边聚簇的大图划分与迭代处理

大图数据上顶点驱动的并行最小生成树算法

基于Hadoop的封闭直方图立方

增量式迭代计算模型研究与实现

面向代码的软件能耗优化研究进展

一种优化MapReduce系统能耗的数据布局算法

一种优化MapReduce系统能耗的任务分发算法

MapReduce连接查询的I/O代价研究

增量式迭代计算模型研究与实现

实时系统温度功耗管理的优化方法研究

MapReduce大数据处理平台与算法研究进展

基于社交关系的微博主题情感挖掘

一种多源感知数据流上的连续真值发现技术

A Comparative Analysis on Weibo and Twitter

分布式协商：建立稳固分布式大数据系统的基石

大数据应用系统的消息驱动架构

基于位置的偏好查询处理技术

数据产品在线定制平台的探索实践

数据密集型计算中负载均衡的数据布局方法

HaoLap: A Hadoop based OLAP system for big data

Performance and Energy Optimization of the Terasort Algorithm by Task Self-Resizing

面向代码的软件能耗优化研究进展

一种能效优化的MapReduce资源比模型

Conversion Cost andSpecification on Interfaces of Key-value Stores

Research on MapReduce based Incremental Iterative Model and Framework

HaoLap: A Hadoop based OLAP System for Massive Data. Journal of Systems & Software

大数据分析的分布式MOLAP技术

一种能效优化的MapReduce资源比模型

一种优化MapReduce系统能耗的数据布局算法

A Novel Task Scheduling Approach for Reducing Energy Consumption of MapReduce Cluster

一种优化MapReduce系统能耗的任务分发算法

Study on energy-consumption regularities of cloud computing systems by a novel evaluation model

一种云计算环境下的能效模型和度量方法

MapReduce连接查询的I/O代价研究

云数据管理系统能耗基准测试与分析

增量式迭代计算模型研究与实现

云计算环境下改进的能效度量模型

不确定性键值对数据模型及改进Top-k查询算法

分布式环境下的频繁数据缓存策略

期刊信息

《计算机应用》
北大核心期刊（2011版）

主管单位:四川省科学技术协会
主办单位:四川省计算机学会中国科学院成都分院
主编：张景中
地址：成都市人民南路四段九号科分院计算所
邮编：610041
邮箱：xzh@joca.cn
电话：028-85224283

国际标准刊号：ISSN：1001-9081
国内统一刊号：ISSN：51-1307/TP
邮发代号:62-110

获奖情况:
全国优秀科技期刊一等奖,国家期刊奖提名奖,中国期刊方阵双奖期刊,中文核心期刊,中国科技核心期刊

国内外数据库收录:
俄罗斯文摘杂志,波兰哥白尼索引,美国剑桥科学文摘,英国科学文摘数据库,日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊（2004版）,中国北大核心期刊（2008版）,中国北大核心期刊（2011版）,中国北大核心期刊（2014版）,中国北大核心期刊（2000版）

被引量:53679