东篱科研大数据发现系统（DRDS）

位置：成果数据库 > 期刊 > 期刊详情页

一种列存储数据仓库中的数据复用策略

ISSN号：0254-4164
期刊名称：计算机学报
时间：2013.8.15
页码：1626-1635
分类：TP311[自动化与计算机技术—计算机软件与理论;自动化与计算机技术—计算机科学与技术]
作者机构：[1]东华大学计算机科学与技术学院,上海201620
相关基金：国家自然科学基金（61070031,61103046）;上海市自然科学基金（11ZR1401200）资助
相关项目：基于不确定性视觉模型的图像语义抽取问题研究

关键词：数据复用, 数据仓库, 列存储, 模式匹配, 可复用数据, data reusing, data warehouse, column-store, schema mapping, reusable data

中文摘要：

数据复用是数据仓库管理中节约存储空间、提高查询效率的重要手段.列存储技术将来自同一属性的数据连续存储,极大地提高了数据仓库等分析型应用软件的性能,同时增加了复用的可行性和灵活性.为此,提出了一种列存储数据仓库中的数据复用策略.首先,利用模式匹配技术发掘候选可复用列,排除大量无法复用的数据列,在此基础上对候选可复用数据进行筛选和过滤,大大降低复用数据检测的复杂度.针对确定的可复用数据,提出了基于列存储的复用实现策略,分别给出了原始数据列、压缩数据列及索引数据列的复用实现方法.最后提出了基于复用数据的查询实现技术.在大规模数据仓库基准数据集上的实验结果验证了数据复用策略在减少存储量、节省数据装载时间及提升查询性能方面的有效性.

英文摘要：

Data reusing is an important way to save storage capacity and improve the query efficiency in the management of data warehouse.The column-store architecture stores data from the same column continuously,which greatly improves the performance of ＂ read optimization ＂ application and moreover increases the feasibility and flexibility of data reusing.In this paper,we propose a novel reusing strategy based on the column-store data warehouse.Firstly,we adopt schema mapping technology to search candidate reusable columns and then conduct further filter on these candidate data,which greatly reduces the complexity of reusable data detection.Then based on the column-store architecture,we provide a series of methods for the reuse implement,including reusing the initial data,compression and index data.Finally,we propose the method to implement the query based on the reuse data structure.The experiment results conducted on the large-scale data sets indicate that the presented strategy can reduce the storage space,save data loading time and query execution time efficiently.

同期刊论文项目

基于不确定性视觉模型的图像语义抽取问题研究

期刊论文 19 会议论文 4

　社区网络非结构化数据检索关键技术研究

期刊论文 10

数据仓库中行列混合存储引擎的优化模型

期刊论文 19 会议论文 5

同项目期刊论文

APWAH：一种自适应划分字对齐的混合位向量压缩技术

列存储数据仓库中哈希连接的优化算法研究

列存储数据仓库查询执行中重用缓冲区调度算法

VPM:列存储系统中基于带值路径的物化技术

列存储数据仓库中启发式查询优化机制

基于轨迹点局部异常度的异常点检测算法

列存储数据库中压缩位图索引技术

基于列存储的MapReduce并行连接算法

大数据管理技术研究综述

使用MapReduce构建列存储数据的索引

Effective Automatic Image Annotation via Integrated Discriminative and Generative Models

Collaborative visual modeling for automatic image annotation via sparse model coding

列存储中的OLAP多查询优化方法

列存储数据查询中的连接策略优化方法

<span style="line-height:normal;font-family:Verdana, Arial, Helvetica, sans-serif;background

k-匿名数据上的聚集查询及其性质

列存储数据仓库中基于概率的保序字符串压缩方法

基于列存储的OLAP多查询优化方法

列存储数据库中压缩位图索引技术

列存储系统面向列的连接顺序优化研究

适用于范围查询的列存储数据桶划分算法

基于双曲线边界的多处理器实时任务可调度性判定

异构计算平台上列存储系统的并行连接优化策略

基于MapReduce的并行k-modes算法

一种大规模分类数据聚类算法及其并行实现

列存储数据仓库查询执行中重用缓冲区调度算法

VPM:列存储系统中基于带值路径的物化技术

列存储数据库中压缩位图索引技术

基于双曲线边界的多处理器实时任务可调度性判定

使用MapReduce构建列存储数据的索引

异构计算平台上列存储系统的并行连接优化策略

基于MapReduce的并行k-modes算法

一种基于复合滤波和曲线特征点提取的QRS波实时检测算法

一种大规模分类数据聚类算法及其并行实现

期刊信息

《计算机学报》
北大核心期刊（2011版）

主管单位:中国科学院
主办单位:中国计算机学会中国科学院计算技术研究所
主编：孙凝晖
地址：北京中关村科学院南路6号
邮编：100190
邮箱：cjc@ict.ac.cn
电话：010-62620695

国际标准刊号：ISSN：0254-4164
国内统一刊号：ISSN：11-1826/TP
邮发代号:2-833

获奖情况:
中国期刊方阵“双效”期刊

国内外数据库收录:
美国数学评论（网络版）,荷兰文摘与引文数据库,美国工程索引,美国剑桥科学文摘,日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊（2004版）,中国北大核心期刊（2008版）,中国北大核心期刊（2011版）,中国北大核心期刊（2014版）,中国北大核心期刊（2000版）

被引量:48433