东篱科研大数据发现系统（DRDS）

欢迎您！东篱公司退出

申报数据库
1. 申报指南
立项数据库
成果数据库
1. 期刊论文
2. 会议论文
3. 著作
4. 专利
项目获奖数据库

位置：成果数据库 > 期刊 > 期刊详情页

使用MapReduce构建列存储数据的索引

ISSN号：1000-386X
期刊名称：《计算机应用与软件》
时间：0
分类：TP311.1[自动化与计算机技术—计算机软件与理论;自动化与计算机技术—计算机科学与技术]
作者机构：[1]东华大学计算机科学与技术学院,上海201620
相关基金：国家自然科学基金项目（61070031,61070032）;上海市自然科学基金项目（11ZR1401200）;核高基重大专项（2010ZX01042-001-003-004）.

作者：丁祥武[1], 李清炳, 乐嘉锦[1]

关键词：列存储, RB+索引, MapReduce, Column-store, MapReduce, RB＋Index

中文摘要：

大数据的存储与分析是近年来数据库领域研究的热点，高效的索引技术是提高大数据查询分析性能的重要技术手段。在现有的数据存储模型及索引技术研究基础上，提出使用MapReduce构建列存储数据的索引。该索引技术结合MapReduce编程模型，先在Map阶段完成数据划分，然后在Reduce阶段完成数据的排序，最后在数据有序的Reduce节点上创建RB＋树索引，从而减少索引创建时因为RB＋树内部节点递归分裂而产生的昂贵代价和树的高度，提高数据查询的性能。通过在真实数据集上进行实验，验证了所提出方法的有效性。

英文摘要：

Huge data storage and analysis are the research focus of database field in recent years.Efficient index technology is an important technical means to improve the performance of huge data query and analysis.Based on existing studies on data storage model and index technology,we propose that to use MapReduce to create index for column-store data.In combination with the MapReduce programming model,this index technique first completes data partitioning in Map phase,then completes data sorting in Reduce phase,and finally creates RB＋tree index on each sorted data Reduce node,so as to cut down the high cost caused by recursive split between inner nodes of RB＋tree when the index is creating and the height of the tree,and to improve data query performance.Through the experiment on real log file datasets,it verifies the effectiveness of the proposed method.

同期刊论文项目

源于k-匿名隐私保护模型的不确定性数据管理及可用性问题

期刊论文 39 会议论文 7

　社区网络非结构化数据检索关键技术研究

期刊论文 10

数据仓库中行列混合存储引擎的优化模型

期刊论文 19 会议论文 5

同项目期刊论文

APWAH：一种自适应划分字对齐的混合位向量压缩技术

列存储数据仓库中哈希连接的优化算法研究

列存储数据仓库查询执行中重用缓冲区调度算法

VPM:列存储系统中基于带值路径的物化技术

列存储数据仓库中启发式查询优化机制

一种列存储数据仓库中的数据复用策略

基于轨迹点局部异常度的异常点检测算法

列存储数据库中压缩位图索引技术

基于列存储的MapReduce并行连接算法

大数据管理技术研究综述

K-匿名隐私保护模型中不确定性数据的建模问题研究

A-Stein:以数据为中心的业务流程管理原型系统

基于时间Petri网的Artifact有效性的验证

k-匿名隐私保护模型中k值的优化选择算法

K-匿名隐私保护模型下的Top-k查询

k-匿名数据中的数据依赖问题研究

不确定时间序列的规约方法

Artifact的有效性问题研究

针对k-匿名数据的判定树构造算法

基于指纹和推导模型的泄密信息检测方案

以业务单据为中心的业务流程模型聚类及相似性查询方法

XAr/T-net:一种用于以业务单据为中心的业务流程建模方法

面向Artifact的业务流程行为相似性度量方法

基于位置敏感哈希分割的空间K-匿名共匿算法

均匀分布下不确定数据的关联规则变粒度查询

满足均匀分布的不确定数据关联规则挖掘算法

Attribute-or模型下不确定关系的无损分解算法

k-匿名隐私保护模型中不确定性数据的查询问题

不确定关系的数据依赖问题研究

列存储数据仓库查询执行中重用缓冲区调度算法

VPM:列存储系统中基于带值路径的物化技术

基于概率的动态视图安全发布方法

列存储数据仓库中启发式查询优化机制

列存储数据库中压缩位图索引技术

A clustering approach for artifact-centric business process models

ArtiFlow中artifact生命周期的可满足性问题

含排他性选择规则的主动规则集的汇流性判定方法

基于列存储的MapReduce并行连接算法

大数据管理技术研究综述

基于趋势的时间序列相似性度量和聚类研究

Reciprocal Cloaking Algorithm for Spatial K-Anonymity

不确定时间序列的相似性匹配问题

列存储数据仓库查询执行中重用缓冲区调度算法

VPM:列存储系统中基于带值路径的物化技术

一种列存储数据仓库中的数据复用策略

列存储数据库中压缩位图索引技术

基于双曲线边界的多处理器实时任务可调度性判定

异构计算平台上列存储系统的并行连接优化策略

基于MapReduce的并行k-modes算法

一种基于复合滤波和曲线特征点提取的QRS波实时检测算法

一种大规模分类数据聚类算法及其并行实现

期刊信息

《计算机应用与软件》
北大核心期刊（2011版）

主管单位:上海科学院
主办单位:上海市计算技术研究所上海计算机软件技术开发中心
主编：朱三元
地址：上海市愚园路546号
邮编：200040
邮箱：cas@sict.stc.sh.cn
电话：021-62254715 62520070-505

国际标准刊号：ISSN：1000-386X
国内统一刊号：ISSN：31-1260/TP
邮发代号:4-379

获奖情况:
全国计算机类中文核心期刊

国内外数据库收录:
波兰哥白尼索引,美国剑桥科学文摘,中国中国科技核心期刊,中国北大核心期刊（2004版）,中国北大核心期刊（2011版）,中国北大核心期刊（2000版）

被引量:27463