位置:成果数据库 > 期刊 > 期刊详情页
一种基于改进的链式MapReduce的并行ETL应用
  • ISSN号:1000-0801
  • 期刊名称:《电信科学》
  • 时间:0
  • 分类:TP393.03[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]北京邮电大学计算机学院通信软件工程中心,北京100876
  • 相关基金:国家自然科学基金资助项目(No.61074128)
中文摘要:

介绍了并行ETL的相关工作和常见的处理多MapReduce作业流程的方法;提出一种改进的链式MapReduce框架.并将此框架应用于一个并行ETL工具,同时提出一些针对ETL处理的流程级优化规则,使ETL流程产生更少的MapReduce作业,从而减少I/O以及网络传输的消耗;利用某省份手机上网数据与Hive进行了大数据对比实验,结果表明.本ETL工具的性能平均比Hive快10%~20%。

英文摘要:

The related work in parallel ETL and common methods to deal with multiple MapReduce jobs were introduced. Then an improved chain-MapReduce framework was presented, based on this framework, a parallel ETL tool was designed. Several optimization rules on ETL which will make the ETL process generate less MapReduce jobs to avoid unnecessary I/O and network cost were presented. The ETL tool on real queries and real big datasets were evaluated. Compared with Hive, the tool reduces time on average by 10% to 20%.

同期刊论文项目
期刊论文 22 会议论文 28 专利 1 著作 1
同项目期刊论文
期刊信息
  • 《电信科学》
  • 北大核心期刊(2011版)
  • 主管单位:中国科学技术协会
  • 主办单位:中国通信学会 人民邮电出版社
  • 主编:韦乐平
  • 地址:北京市丰台区成寿寺路11号邮电出版大厦8层
  • 邮编:100078
  • 邮箱:dxkx@ptpress.com.cn
  • 电话:010-81055443
  • 国际标准刊号:ISSN:1000-0801
  • 国内统一刊号:ISSN:11-2103/TN
  • 邮发代号:2-397
  • 获奖情况:
  • 获第二届全国优秀科技期刊评比三等奖(1997年),获中国科协优秀科技期刊二等奖(1997年),在第四次邮电科技期刊质量检查评比中荣获优秀科技...,国家新闻出版总署将《电信科学》列为“中国期刊方...,获第三届中国科技优秀科技期刊奖三等奖(2002年),在第五次通信行业科技期刊质量检查评比中荣获优秀...,在第六次通信行业科技期刊质量检查评比中荣获优秀...,2008年再次入选《中文核心期刊要目总览》,2009年入选中国科技论文统计
  • 国内外数据库收录:
  • 美国剑桥科学文摘,英国科学文摘数据库,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版),中国北大核心期刊(2000版)
  • 被引量:12435