东篱科研大数据发现系统（DRDS）

位置：成果数据库 > 期刊 > 期刊详情页

HDFS下海量小文件高效存储与索引方法

ISSN号：1000-1220
期刊名称：《小型微型计算机系统》
时间：0
分类：TP311[自动化与计算机技术—计算机软件与理论;自动化与计算机技术—计算机科学与技术]
作者机构：[1]西北工业大学计算机学院,西安710072
相关基金：国家“九七三”重点基础研究发展计划项目（2012CB316203）资助;国家自然基金重点项目（61033007）资助;中国航天科技集团公司航天科技创新基金项目（2014H03FK011）资助.

作者：肖玉泽[1], 张利军[1], 潘巍[1], 张小芳[1], 李战怀[1]

关键词： HDFS, 海量小文件, 多维列索引, 文件信息查询, HDFS, massively small files, multi-dimensional column index, file information query

中文摘要：

分布式文件系统HDFS被用来存储大文件，若在其中存储海量小文件将会严重消耗NameNode内存，影响系统性能，同时小文件也不利于使用MapReduce框架进行并行处理和分析．另外，小文件附带的多维元信息也需要以一种合理的方式进行存储和索引以便于查询．本文针对以上问题，提出一种基于多维列索引的小文件管理方案，支持文件的并发上传、下载及删除操作，并在多个查询维度上提供文件的自由检索．本文提出的小文件合并方案能够明显减少HDFS上的文件数量，经过实验对比，在小文件元信息的查询效率方面，本文提出的多维索引方案优于HBase，同时保证了文件传输的吞吐量．

英文摘要：

Hadoop Distributed File System { HDFS ） is designed to manage large files, storing of massively small files in HDFS will take a high memory usage rate on NameNode and also not efficient for parallel processing by MapReduce. On the other hand, the meta file information of these small files also need to be stored and indexed in an efficient way to realize fast query performance. For these problems, we present an efficient approach to store massively small files in HDFS by combining small files to large DataFiles. Our approach supports for concurrent file upload, download and delete operations, especially querying on multi-dimensional search conditions. The experiment results show that our approach outperformed HBase in querying massively small files, while ensuring upload/ download throughput.

同期刊论文项目

数据密集型计算环境下的数据管理方法与技术

期刊论文 125 会议论文 77

同项目期刊论文

面向路网的不确定移动范围查询技术

A framework for supporting tree-like indexes on the Chord overlay

异构存储系统性能监测技术研究

多层次RFID数据流上复杂事件检测

大规模图挖掘算法并行化研究

基于ETW的Windows系统性能监测技术

基于MapReduce的封闭数据立方

一种基于局部冲突分配的DST组合规则

Asyn-SimRank:一种可异步执行的大规模SimRank算法

大图数据上顶点驱动的并行最小生成树算法

Efficient mining differential co-expression biclusters in microarray datasets

一种云环境下基于分级管理的自律计算模型

MapReduce集群中最大收益问题的研究

在线视频点播系统节能方法与策略研究

TBPRS:基于信任关系的社交用户推荐系统

Lightweight Locking for Main Memory Database Systems

面向路网空间的不确定性移动范围查询技术的研究

基于消息传递机制的MapReduce图算法研究

RM-LCDF:一种块级连续数据保护高效数据恢复方法

用户评论的质量检测与控制研究综述

面向路网的不确定移动范围查询

针对不确定射频识别数据流的改进概率推导方法

基于共享的MapReduce多查询优化技术

基于私有云的虚拟实验平台的设计与实现

基于蛋白质网络的模块动态特性挖掘研究

Semantic relevance ranking for XML keyword search

云计算环境下的大规模图数据处理技术

针对不确定RFID数据流上的改进概率推导方法

<h3 style="color:#222222;text-indent:0px;background-color:#FFFFFF;" class="gs_rt&q

Scalable SPARQL querying of large RDF graphs

FDSS:基于HDFS的海量音乐特征数据存储系统

SERA:股票历史交易重现和分析的原型系统

一种基于LBS的移动个性化推荐系统

基于MapReduce的数据聚集运算算法

云存储性能评测技术与方法研究

A high-level energy consumption model for heterogeneous data centers

云存储性能评测技术研究

海量存储系统能耗评测模型的研究

面向BSP 模型的负载均衡Hash 图数据划分

应用信息论的数据导向模式匹配方法

不确定RFID数据流上基于熵的数据推导方法

S-TRAP: Optimization and Evaluation of Timely Recovery to Any Point-in-time (TRAP)

RFID交叉读仲裁方法研究

RFID数据流上多目标复杂事件检测

异构信息空间中实体关联关系挖掘算法CFRQ4A

ERE:基于半结构化Web页面的实体关系抽取系统

BHP:面向BSP模型的负载均衡Hash图数据划分

Reverse k-ranks query

NTFS文件系统空间回收方法的研究

在线-离线数据流上复杂事件检测

基于概率SLCA的XML过滤

基于Hadoop的封闭直方图立方

Group Location Selection Queries over Uncertain Objects

Performance Evaluation of Online Backup Cloud Storage

支持大数据管理的NoSQL 系统研究综述

异构网络中关联实体识别模型及增量式验证算法研究

A unified framework for semi-supervised PU learning

Differentially private histogram publication

基于分布式的自律计算模型研究与设计

智能超市中在线与离线RFID数据仓库技术研究

基于数据差异的连续数据保护恢复算法

基于OpenFlow的虚拟网络架构的设计与实现

一种基于图结构的Web实体排序方法

一种面向情感分析的微博表情情感词典构建及应用

共享的MapReduce环境下批量作业的调度算法研究

空间数据库中主题相关区域查询

一种基于增量分区的社交网络数据管理与维护方法

Efficient mining differential co-expression bicluster in microarray datasets. Elsevier Gene

Efficient mining differential co-expression constant row bicluster in real-valued gene expression da

多标签数据挖掘技术研究综述

A Novel Approach Based on Multi-View Content Analysis and Semi-Supervised

Query intent disambiguation of keyword-based semantic entity search in dataspaces

一种有效的多数据源RFID冗余数据清洗技术

基于数据价值的云存储动态备份一致性机制

基于信息流动分析的动态社区发现方法

基于关键字语义信息的XML文档分类

<span style="color:red;font-family:宋体;font-size:12pt;"><span style="font-fam

<span style="font-family:宋体;font-size:12pt;"><span style="font-family:;"

<a class="fz14" href="http://epub.cnki.net/kns/detail/detail.aspx?QueryID=2&am

Fast Distributed Transactions and Strongly Consistent Replication for OLTP Database Systems

Marianne Winslett. Differentially private histogram publication

广告点击率估算技术综述

面向用户观点分析的多分类器集成和优化技术

一种障碍空间数据库中的连续反k近邻查询方法

图数据中Top—k属性差异q-clique查询

支持大数据管理的NoSQL系统研究综述

基于堆叠文件系统的云计算存储优化

一种基于Hadoop的多表链接策略

基于关联数据的一致性和时效性清洗方法

基于增量式分区策略的MapReduce数据均衡方法

BOD：一种高效的分布式离群点检测算法

新型OLTP数据库系统设计的关键技术及挑战

大数据环境下并行计算模型的研究进展

一种面向海量分布式数据库的嵌套查询策略

面向Web数据集成的真值发现算法

基于差分隐私的频繁序列模式挖掘算法

面向微博系统的实时个性化推荐

SERA:股票历史交易重现和分析系统

Constrained query of order-preserving submatrix in gene expression data

A Novel Approach Based on Multi-View Content Analysis and Semi- Supervised Enrichment for Movie Recommendation

异构数据联合式的真值发现算法

一种面向多源知识图谱的样例查询方法

期刊信息

《小型微型计算机系统》
中国科技核心期刊

主管单位:中国科学院
主办单位:中国科学院沈阳计算技术研究所
主编：林浒
地址：沈阳市浑南新区南屏东路16号
邮编：110168
邮箱：xwjxt@sict.ac.cn
电话：024-24696120 024-24696190-8870

国际标准刊号：ISSN：1000-1220
国内统一刊号：ISSN：21-1106/TP
邮发代号:8-108

获奖情况:
中国自然科学核心期刊,中国科学引文数据库来源期刊

国内外数据库收录:
俄罗斯文摘杂志,波兰哥白尼索引,荷兰文摘与引文数据库,美国剑桥科学文摘,英国科学文摘数据库,日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊（2004版）,中国北大核心期刊（2008版）,中国北大核心期刊（2011版）,中国北大核心期刊（2014版）,中国北大核心期刊（2000版）

被引量:23212