位置:成果数据库 > 期刊 > 期刊详情页
基于MapFile的HDFS小文件存取优化
  • ISSN号:1006-0456
  • 期刊名称:《南昌大学学报:工科版》
  • 时间:0
  • 分类:TP311.13[自动化与计算机技术—计算机软件与理论;自动化与计算机技术—计算机科学与技术]
  • 作者机构:南昌大学信息工程学院,江西南昌330031
  • 相关基金:国家自然科学基金资助项目(61070139,81460769); 江西省教育厅科学计划资助项目(GJJ14134,GJJ14143); 广东省科技计划资助项目(2013B010406008)
中文摘要:

分布式文件系统(HDFS)存取大文件有很好的性能,但存取海量小文件时效率很差。鉴于此,提出一种小文件存取优化策略。存储小文件时,客户端将它们按类型和访问权限分类合并成MapFile,合并后的大文件交给HDFS处理。读取小文件时,引入由Nexist文件缓冲区域、一级缓存和二级缓存组成的缓存模块。实验表明,该策略能有效降低存取海量小文件时主节点中内存的消耗,同时减少了小文件的存取时间,极大提高存取的性能。

英文摘要:

Hadoop distributed file system (HDFS) has a very good performance in accessing large files,but it was inefficient when accessing massive small files.For that reason,a new strategy for optimizing the access of small files was proposed in this paper.When storing small files,they will be merged into MapFile by type and access rights in the Client Node,then HDFS will handle those large files.When reading small files,a cache module was introduced,which composed of a buffer area of Nexist file,Cache L1 and Cache L2.Experiments showed that,this strategy can reduce the memory consumption of NameNode when accessing massive small files effectively,reduce the time for accessing small files,and greatly improve the performance of accessing simultaneously.

同期刊论文项目
期刊论文 33 会议论文 4
同项目期刊论文
期刊信息
  • 《南昌大学学报:工科版》
  • 中国科技核心期刊
  • 主管单位:南昌大学
  • 主办单位:南昌大学
  • 主编:谢明勇
  • 地址:南昌市南京东路235号南昌大学期刊社
  • 邮编:330047
  • 邮箱:NCDG@chinajournal.net.cn
  • 电话:0791-88305803
  • 国际标准刊号:ISSN:1006-0456
  • 国内统一刊号:ISSN:36-1194/T
  • 邮发代号:44-38
  • 获奖情况:
  • 曾获首届江西省优秀期刊质量奖,第二届江西省优秀科技期刊评比先进科技期刊奖,第三届江西省优秀期刊版式设计奖
  • 国内外数据库收录:
  • 美国化学文摘(网络版),波兰哥白尼索引,美国剑桥科学文摘,中国中国科技核心期刊
  • 被引量:4072