位置:成果数据库 > 期刊 > 期刊详情页
基于模糊理论的Web服务信任评估模型
  • ISSN号:1000-386X
  • 期刊名称:《计算机应用与软件》
  • 时间:0
  • 分类:TP311[自动化与计算机技术—计算机软件与理论;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]北京科技大学计算机与通信工程学院,北京100083
  • 相关基金:国家自然科学基金资助项目(61070182,60873192)
中文摘要:

由于Hadoop自身并不适合海量小文件处理,目前的重复数据删除方法主要基于文件的二进制特征,无法识别经过信号处理后的同一首歌曲,也不能满足海量数据在线处理的要求。提出一种采用声学指纹去重的海量MP3文件存储架构,结合音乐文件自身的声学特性和MP3文件包含的元信息,通过索引、在线归并和NAF去重,很好地解决了小文件过多时内存瓶颈问题,同时提供了更好的去重效果;离线归并和副本调整模块根据系统的运行状况不断优化存储。实验结果表明,该架构在性能、去重率、可管理性和可扩展性方面达到了良好的平衡,极大地提高了去重率,与可变分块CDC相比,去重率提高了100%,具有良好的实用价值。

英文摘要:

Due to the Hadoop itself is not suitable for processing of the mass of small files. And current data de-duplication methods are mainly based on the binary characteristics of the file, so it cannot recognize the same song after the signal process- ing and also cannot meet the requirements of the online processing of massive data. This paper presented a de-duplication stor- age architecture of the mass of the MP3 file based on the acoustic fingerprint. It combined with music files on the acoustic char- acteristics and the recta-information of MP3 files, de-duplication by index, merge online and NAF, solved the memory bottle- neck problem effectively in the face of too many small files. At the same time it provided a better de-duplication effect. Offline merge and the replication place module optimized storage continually according to the operating conditions of the system. The experimental results show that the architecture can achieve a good balance on performance, the rate of de-duplication, manage- ability and scalability.

同期刊论文项目
同项目期刊论文
期刊信息
  • 《计算机应用与软件》
  • 北大核心期刊(2011版)
  • 主管单位:上海科学院
  • 主办单位:上海市计算技术研究所 上海计算机软件技术开发中心
  • 主编:朱三元
  • 地址:上海市愚园路546号
  • 邮编:200040
  • 邮箱:cas@sict.stc.sh.cn
  • 电话:021-62254715 62520070-505
  • 国际标准刊号:ISSN:1000-386X
  • 国内统一刊号:ISSN:31-1260/TP
  • 邮发代号:4-379
  • 获奖情况:
  • 全国计算机类中文核心期刊
  • 国内外数据库收录:
  • 波兰哥白尼索引,美国剑桥科学文摘,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2011版),中国北大核心期刊(2000版)
  • 被引量:27463