位置:成果数据库 > 期刊 > 期刊详情页
Hadoop和Spark在实验室中部署与性能评估
  • ISSN号:1006-7167
  • 期刊名称:《实验室研究与探索》
  • 时间:0
  • 分类:TP302.1[自动化与计算机技术—计算机系统结构;自动化与计算机技术—计算机科学与技术]
  • 作者机构:南京信息工程大学电子与信息工程学院,江苏南京210044
  • 相关基金:国家自然科学基金项目(61203273); 江苏省自然科学基金项目(BK20141004); 南京信息工程大学大学生实践创新训练计划项目(201410300175)
中文摘要:

随着互联网技术的发展,数据量成爆炸性增长趋势,单机难以存储、组织和分析这些海量数据。面对单机难以处理海量数据的现状,建立分布式计算平台对于今后科研工作和实验教学具有重要的意义。就如何在实验室环境下搭建分布式计算平台做了详细说明并对hadoop和spark的性能进行比较,包括Hadoop和Spark集群的安装和部署,Spark集成开发环境的建立,同一组数据集在两个平台上进行Kmeans聚类的时间对比。对于建设分布式计算平台具有一定的指导意义。

英文摘要:

With the development of the Internet technology,data volume is streaming. A single machine cannot store,organize and analyze massive data. Facing to the current situation,it is meaningful to build distributed computing platform for further research and experimental teaching. This paper gives a detailed description of the establishment of distributed computing platform and makes a performance comparison between Hadoop and Spark. The comparison focuses on the time consuming,and includes the building of Hadoop and Spark platforms,establishing the Spark development environment,using an identical set of dataset to do Kmeans clustering. It will be helpful for someone who is going to construct distributed computing platform.

同期刊论文项目
同项目期刊论文
期刊信息
  • 《实验室研究与探索》
  • 北大核心期刊(2011版)
  • 主管单位:教育部
  • 主办单位:上海交通大学
  • 主编:夏有为
  • 地址:上海市市南区华山路1954号交教学三楼456、457
  • 邮编:200030
  • 邮箱:sysycp@163.com sysy@mail.sjtu.edu.cn
  • 电话:021-62932952 62932875
  • 国际标准刊号:ISSN:1006-7167
  • 国内统一刊号:ISSN:31-1707/T
  • 邮发代号:4-834
  • 获奖情况:
  • 国家科技部中国科技论文统计源期刊
  • 国内外数据库收录:
  • 美国化学文摘(网络版),美国乌利希期刊指南,中国中国科技核心期刊,中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版)
  • 被引量:53638