位置:成果数据库 > 期刊 > 期刊详情页
HDFS下海量小文件高效存储与索引方法
  • ISSN号:1000-1220
  • 期刊名称:《小型微型计算机系统》
  • 时间:0
  • 分类:TP311[自动化与计算机技术—计算机软件与理论;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]西北工业大学计算机学院,西安710072
  • 相关基金:国家“九七三”重点基础研究发展计划项目(2012CB316203)资助;国家自然基金重点项目(61033007)资助;中国航天科技集团公司航天科技创新基金项目(2014H03FK011)资助.
中文摘要:

分布式文件系统HDFS被用来存储大文件,若在其中存储海量小文件将会严重消耗NameNode内存,影响系统性能,同时小文件也不利于使用MapReduce框架进行并行处理和分析.另外,小文件附带的多维元信息也需要以一种合理的方式进行存储和索引以便于查询.本文针对以上问题,提出一种基于多维列索引的小文件管理方案,支持文件的并发上传、下载及删除操作,并在多个查询维度上提供文件的自由检索.本文提出的小文件合并方案能够明显减少HDFS上的文件数量,经过实验对比,在小文件元信息的查询效率方面,本文提出的多维索引方案优于HBase,同时保证了文件传输的吞吐量.

英文摘要:

Hadoop Distributed File System { HDFS ) is designed to manage large files, storing of massively small files in HDFS will take a high memory usage rate on NameNode and also not efficient for parallel processing by MapReduce. On the other hand, the meta file information of these small files also need to be stored and indexed in an efficient way to realize fast query performance. For these problems, we present an efficient approach to store massively small files in HDFS by combining small files to large DataFiles. Our approach supports for concurrent file upload, download and delete operations, especially querying on multi-dimensional search conditions. The experiment results show that our approach outperformed HBase in querying massively small files, while ensuring upload/ download throughput.

同期刊论文项目
同项目期刊论文
期刊信息
  • 《小型微型计算机系统》
  • 中国科技核心期刊
  • 主管单位:中国科学院
  • 主办单位:中国科学院沈阳计算技术研究所
  • 主编:林浒
  • 地址:沈阳市浑南新区南屏东路16号
  • 邮编:110168
  • 邮箱:xwjxt@sict.ac.cn
  • 电话:024-24696120 024-24696190-8870
  • 国际标准刊号:ISSN:1000-1220
  • 国内统一刊号:ISSN:21-1106/TP
  • 邮发代号:8-108
  • 获奖情况:
  • 中国自然科学核心期刊,中国科学引文数据库来源期刊
  • 国内外数据库收录:
  • 俄罗斯文摘杂志,波兰哥白尼索引,荷兰文摘与引文数据库,美国剑桥科学文摘,英国科学文摘数据库,日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版),中国北大核心期刊(2000版)
  • 被引量:23212