位置:成果数据库 > 期刊 > 期刊详情页
使用MapReduce构建列存储数据的索引
  • ISSN号:1000-386X
  • 期刊名称:《计算机应用与软件》
  • 时间:0
  • 分类:TP311.1[自动化与计算机技术—计算机软件与理论;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]东华大学计算机科学与技术学院,上海201620
  • 相关基金:国家自然科学基金项目(61070031,61070032);上海市自然科学基金项目(11ZR1401200);核高基重大专项(2010ZX01042-001-003-004).
中文摘要:

大数据的存储与分析是近年来数据库领域研究的热点,高效的索引技术是提高大数据查询分析性能的重要技术手段。在现有的数据存储模型及索引技术研究基础上,提出使用MapReduce构建列存储数据的索引。该索引技术结合MapReduce编程模型,先在Map阶段完成数据划分,然后在Reduce阶段完成数据的排序,最后在数据有序的Reduce节点上创建RB+树索引,从而减少索引创建时因为RB+树内部节点递归分裂而产生的昂贵代价和树的高度,提高数据查询的性能。通过在真实数据集上进行实验,验证了所提出方法的有效性。

英文摘要:

Huge data storage and analysis are the research focus of database field in recent years.Efficient index technology is an important technical means to improve the performance of huge data query and analysis.Based on existing studies on data storage model and index technology,we propose that to use MapReduce to create index for column-store data.In combination with the MapReduce programming model,this index technique first completes data partitioning in Map phase,then completes data sorting in Reduce phase,and finally creates RB+tree index on each sorted data Reduce node,so as to cut down the high cost caused by recursive split between inner nodes of RB+tree when the index is creating and the height of the tree,and to improve data query performance.Through the experiment on real log file datasets,it verifies the effectiveness of the proposed method.

同期刊论文项目
同项目期刊论文
期刊信息
  • 《计算机应用与软件》
  • 北大核心期刊(2011版)
  • 主管单位:上海科学院
  • 主办单位:上海市计算技术研究所 上海计算机软件技术开发中心
  • 主编:朱三元
  • 地址:上海市愚园路546号
  • 邮编:200040
  • 邮箱:cas@sict.stc.sh.cn
  • 电话:021-62254715 62520070-505
  • 国际标准刊号:ISSN:1000-386X
  • 国内统一刊号:ISSN:31-1260/TP
  • 邮发代号:4-379
  • 获奖情况:
  • 全国计算机类中文核心期刊
  • 国内外数据库收录:
  • 波兰哥白尼索引,美国剑桥科学文摘,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2011版),中国北大核心期刊(2000版)
  • 被引量:27463