东篱科研大数据发现系统（DRDS）

位置：成果数据库 > 期刊 > 期刊详情页

一种面向数据仓库周期性查询的增量优化方法

ISSN号：1000-9825
期刊名称：《软件学报》
时间：0
分类：TP311[自动化与计算机技术—计算机软件与理论;自动化与计算机技术—计算机科学与技术]
作者机构：[1]计算机体系结构国家重点实验室(中国科学院计算技术研究所),北京100190, [2]中国科学院大学,北京100190
相关基金：国家高技术研究发展计划（863）（2015AA011505）;国家自然科学基金（61303053,61402445,61402303,61521092）

关键词：数据仓库, 周期性查询, 增量优化, 中间结果重用, data warehouse, periodic query, incremental optimize, middle result reusing

中文摘要：

大数据蕴含着巨大的价值．分析类查询是获取数据价值的一种重要手段．为及时把握分析结果的变化，查询需要周期性地重复．为此，将不可避免地引入对旧数据的重复分析．目前，以重用历史数据的中间结果、优化冗余计算为核心思路的增量分析技术，存在用户透明性不佳、对历史结果存储位置的选择不够智能化等问题，对周期性增量查询的优化效果有限．从兼顾用户透明性和优化收益的角度出发，设计了一种以语义规则为指导的增量优化方法．该方法扩展了增量描述语法，以查询操作符的操作语义和输出语义指导对历史数据存储、合并位置的选择，再根据代价模型和物理查询任务的划分位置对选择结果进行调整，生成优化后可以在分布式计算框架（如MapReduce）周期性调度执行的物理查询任务．以ApacheHive为基础，实现了上述方法的原型Hivelnc．实验结果表明：对于扩展了增量语法描述的TPC—H测试集，Hivelnc相对于优化前可以获得平均2．93倍、最高5．78倍的加速；与经典的优化技术IncMR、Dryadlnc相比，分别可以获得1．69倍和1．61倍的加速．

英文摘要：

Analytical query is an important way to get value from big data in data warehouse. With the growth of data, the same query needs to be executed periodically, which inevitably introduces redundant calculation on historical data. One type of incremental optimization technology reduces redundant calculation by reusing intermediate results of historical data. However it has following problems： 1） it isn＇t transparent for user; 2） choice of historical result storing/reusing position is not intelligent; and 3） optimization gains is limited. This article designs an incremental optimization method, which is guided by the semantic rules. This method focuses on both user transparency and optimization gains, and extends grammar to support incremental description. Historical result storing/reusing location is firstly chosen by operators＇ operational semantics and output semantics. Positions are then adjusted according to cost model and physical task＇s division positions. At last, optimized tasks-DAG is generated with the ability to run in a distributed computing framework （such as MapReduce） periodically. This paper implements a prototype, called HiveInc, based on Apache Hive. Experimental results on TPC-H show that, compared to non-optimization, HiveInc can obtain average 2.93 speed-up and highest 5.78 speed-up. Compared to classical optimization techniques, IncMR and DryadInc, speed-up of 1.69 and 1.61 can be obtained respectively.

同期刊论文项目

超并行高效能计算机体系结构与设计方法研究

期刊论文 13

大规模分布式系统中服务失效的自动诊断方法研究

期刊论文 7

基于分层图的海量图数据并行编程方法研究

期刊论文 7

准确性无损的软件缺陷检测高可扩展性优化研究

期刊论文 5

同项目期刊论文

基于顶点加权的介度中心近似算法研究

一种场景敏感的高效错误检测方法

HDAS：异构集群上Hadoop＋框架中的动态亲和性调度

Parallel Incremental Frequent Itemset Mining for Large Data

污点分析技术的原理和实践应用

基于顶点加权的介度中心近似算法研究

ParaC：面向GPU平台的图像处理领域的编程框架

HDAS：异构集群上Hadoop＋框架中的动态亲和性调度

异构架构下基于放松重用距离的多平台数据布局优化

Parallel Incremental Frequent Itemset Mining for Large Data

数据中心中DVFS对程序性能影响模型的设计

污点分析技术的原理和实践应用

基于GPU的LLVM程序分析信息并行提取

一种基于GPU的危险路径并行提取方法

Modeling and Optimization of Bandwidth Supply Performance for Cloud-Assisted Video Systems under Flash Crowd

低功耗高速时钟数据恢复电路

基于OpenCL的Viola-Jones人脸检测算法性能优化研究

时分复用片上网络的设计与优化

轻量级大数据运算系统Helius

Parallel Incremental Frequent Itemset Mining for Large Data

内建自调整的仲裁器物理不可克隆函数

基于数据流块的空间指令调度方法

DLPlib： A Library for Deep Learning Processor

数据中心中DVFS对程序性能影响模型的设计

基于非易失存储器件的内存键值存储系统的性能研究

LFF：一种面向大数据应用的众核处理器访存公平性调度机制

基于动态电路的高速发送端设计

期刊信息

《软件学报》
北大核心期刊（2011版）

主管单位:中国科学院
主办单位:中国科学院软件研究所中国计算机学会
主编：赵琛
地址：北京8718信箱中国科学院软件研究所
邮编：100190
邮箱：jos@iscas.ac.cn
电话：010-62562563

国际标准刊号：ISSN：1000-9825
国内统一刊号：ISSN：11-2560/TP
邮发代号:82-367

获奖情况:
2001年入选中国期刊方阵“双百期刊”,2000年荣获中国科学院优秀科技期刊一等奖

国内外数据库收录:
俄罗斯文摘杂志,美国数学评论（网络版）,波兰哥白尼索引,德国数学文摘,荷兰文摘与引文数据库,美国工程索引,美国剑桥科学文摘,英国科学文摘数据库,日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊（2004版）,中国北大核心期刊（2008版）,中国北大核心期刊（2011版）,中国北大核心期刊（2014版）,中国北大核心期刊（2000版）

被引量:54609