位置:成果数据库 > 期刊 > 期刊详情页
基于MapReduce的两表数据倾斜连接的优化算法
  • ISSN号:1671-5489
  • 期刊名称:《吉林大学学报:理学版》
  • 时间:0
  • 分类:TP311[自动化与计算机技术—计算机软件与理论;自动化与计算机技术—计算机科学与技术]
  • 作者机构:山西大学商务学院信息学院,太原030031
  • 相关基金:国家自然科学基金(批准号:61303107).
作者: 赵宇兰
中文摘要:

针对Range partition算法不能优化数据集严重倾斜情形下的两表连接效率问题,提出一种改进的数据倾斜连接算法.该算法将倾斜数据和非倾斜数据区别处理,利用复制、广播方法将数据发送到每个Reduce节点,通过一轮Map/Reduce任务完成所有的连接操作,可有效均衡每个Reduce处理量,解决了数据严重倾斜对两表连接性能的影响.与传统的分区连接算法比较结果表明,该算法有效.

英文摘要:

Aiming at the problem that Range partition algorithm could not optimize two table join efficiency, which contained heavily skewed data, we proposed an improved algorithm for the data skew connection. The algorithm took different treatment for skew data and non-skew data, sent data to each Reduce node by using the methods of replicating and broadcasting, and completed all the connection operation through a round of Map/Reduce tasks. The algorithm could effectively balance processing of each Reduce, which solved the impact of the heavily skewed data on the performance of two table ioin. The results show that the algorithm is effective by comparing with the traditional partition join algorithm.

同期刊论文项目
同项目期刊论文
期刊信息
  • 《吉林大学学报:理学版》
  • 北大核心期刊(2011版)
  • 主管单位:教育部
  • 主办单位:吉林大学
  • 主编:裘式纶
  • 地址:长春市南湖大路5372号
  • 邮编:130012
  • 邮箱:sejuj@mail.jlu.edu.cn
  • 电话:0431-88499428
  • 国际标准刊号:ISSN:1671-5489
  • 国内统一刊号:ISSN:22-1340/O
  • 邮发代号:12-19
  • 获奖情况:
  • 在吉林省、教育部及全国优秀科技期刊评比中共获奖1...,2008年被评为"中国精品科技期刊", 并获教育部"第...,2009年获全国高校科技期刊优秀编辑质量奖,并被吉...,2008年和2009年连续两次获"中国科技论文在线优秀期...,2010年获教育部"第三届中国高校优秀科技期刊"奖
  • 国内外数据库收录:
  • 俄罗斯文摘杂志,美国化学文摘(网络版),美国数学评论(网络版),德国数学文摘,美国剑桥科学文摘,英国科学文摘数据库,中国中国科技核心期刊,中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版)
  • 被引量:6314