位置:成果数据库 > 期刊 > 期刊详情页
基于Impala的大数据查询分析计算性能研究
  • ISSN号:1001-3695
  • 期刊名称:《计算机应用研究》
  • 时间:0
  • 分类:TP391[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术] TP301.6[自动化与计算机技术—计算机系统结构;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]华南师范大学计算机学院,广州510631, [2]华南理工大学计算机科学与工程学院,广州510006
  • 相关基金:国家自然科学基金资助项目(61070015); 广东省自然科学基金资助项目(S2011010001754,S2012030006242); 广东省科技计划资助项目(2012B010100030)
中文摘要:

分析了Cloudera公司推出的Impala实时查询引擎原理与架构,并深入比较Impala与传统MapReduce的性能与特点,针对Impala进行复杂大数据处理方面的不足,提出了MapReduce与Impala结合的大数据处理方法,通过使用MapReduce对Impala的输入数据进行预处理,利用MapReduce在复杂作业处理方面的长处弥补了Impala在这方面的不足。最后对电信手机上网日志进行大数据查询和分析计算实验,实验结果表明,在大数据查询性能方面,基于MapReduce与Impala结合的大数据处理速度比传统MapReduce快了一倍。特别地,在迭代查询实验中,基于MapReduce与Impala结合的处理方法超过传统MapReduce方法八倍以上。基于MapReduce与Impala结合的处理方法在单次查询中的效率仍然高于传统MapReduce;而在迭代查询中,MapReduce与Impala结合的处理方法远远地超过了MapReduce。因此,MapReduce与Impala结合的处理方法能够发挥Impala和Hadoop各自的优点,让处理效率远超传统MapReduce,对于复杂的大数据处理的能力高于Impala。

英文摘要:

First of all,this paper analyzed the elements and architecture of Impala the big data real-time query engine released by Cloudera recently. Then it compared the feature and efficiency between traditional MapReduce and Impala. Based on the comparison,it discovered the disadvantages of Impala. After that it proposed a method to process data with both MapReduce and Impala: using MapReduce to preprocess incoming data of Impala. This method utilized the flexibility of MapReduce to cover the disadvantages of Impala. Comparative experiments on the access log generated by China telecom's daily wap traffice have proved that Impala is evidently faster than traditional MapReduce and the combination of MapReduce and Impala will run twice faster than the traditional MapReduce. Especially in iterative analysis,the combination of MapReduce and Impala shows its overwhelming superiority towards traditional MapReduce. Hence,it is concluded that the combination of MapReduce and Impala can adopt the advantage of each other. It outperform traditional MapReduce on Performance and Impala on flexibility on complex data processing.

同期刊论文项目
期刊论文 53 会议论文 2 专利 2
同项目期刊论文
期刊信息
  • 《计算机应用研究》
  • 北大核心期刊(2011版)
  • 主管单位:四川省科学技术厅
  • 主办单位:四川省计算机研究院
  • 主编:刘营
  • 地址:成都市成科西路3号
  • 邮编:610041
  • 邮箱:arocmag@163.com
  • 电话:028-85210177 85249567
  • 国际标准刊号:ISSN:1001-3695
  • 国内统一刊号:ISSN:51-1196/TP
  • 邮发代号:62-68
  • 获奖情况:
  • 第二届国家期刊奖百种重点科技期刊,国内计算技术类重点核心期刊,国内外著名数据库收录期刊
  • 国内外数据库收录:
  • 俄罗斯文摘杂志,波兰哥白尼索引,英国科学文摘数据库,日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版),中国北大核心期刊(2000版)
  • 被引量:60049