位置:成果数据库 > 期刊 > 期刊详情页
数字标准平台中海量时空小文件合并策略研究
  • ISSN号:1001-3695
  • 期刊名称:《计算机应用研究》
  • 时间:0
  • 分类:TP333[自动化与计算机技术—计算机系统结构;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]湖北省标准化研究院,武汉430061, [2]武汉大学测绘遥感信息工程国家重点实验室,武汉430079
  • 相关基金:国家自然科学基金资助项目(61263040,61075015)
中文摘要:

针对HDFS处理时空小文件效率不高的问题,从用户的访问规律和访问数据自身属性这两者之间的相关性上出发,将用户访问流看成对数据文件的请求序列,然后根据数据的时空属性参数化表示,并利用特征提取构建一个新的特征序列,最后通过序列模式挖掘PrefixSpan算法找到用户在不同访问模式下的特征模板,合并相关文件。实验结果表明,该合并策略有效地降低了NameNode内存占用率和响应时间,提高了读取效率。

英文摘要:

Aiming to the issues of low processing efficiency of small files in HDFS,from the perspective of researching corre-lation between user’s accessing regulation and data attributes,this paper treated user accessing streams as request sequences to data files,and parameterized these data on the basis of its spatial and temporal properties.When it generalized new signa-ture sequences by feature extraction,the feature templates of different access modes were found through sequential pattern mi-ning by PrefixSpan algorithm.Experimental results show that the consolidation strategy effectively reduces the NameNode mem-ory usage and response time,and improves the system read efficiency.

同期刊论文项目
同项目期刊论文
期刊信息
  • 《计算机应用研究》
  • 北大核心期刊(2011版)
  • 主管单位:四川省科学技术厅
  • 主办单位:四川省计算机研究院
  • 主编:刘营
  • 地址:成都市成科西路3号
  • 邮编:610041
  • 邮箱:arocmag@163.com
  • 电话:028-85210177 85249567
  • 国际标准刊号:ISSN:1001-3695
  • 国内统一刊号:ISSN:51-1196/TP
  • 邮发代号:62-68
  • 获奖情况:
  • 第二届国家期刊奖百种重点科技期刊,国内计算技术类重点核心期刊,国内外著名数据库收录期刊
  • 国内外数据库收录:
  • 俄罗斯文摘杂志,波兰哥白尼索引,英国科学文摘数据库,日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版),中国北大核心期刊(2000版)
  • 被引量:60049