位置:成果数据库 > 期刊 > 期刊详情页
一种容三盘失效纠删码的单数据盘失效快速重建方法
  • ISSN号:0254-4164
  • 期刊名称:《计算机学报》
  • 时间:0
  • 分类:TP31[自动化与计算机技术—计算机软件与理论;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]中国船舶重工集团公司第709研究所,湖北武汉430074, [2]华中科技大学计算机科学与技术学院,湖北武汉430074
  • 相关基金:国家自然科学基金资助项目(61232004)
中文摘要:

针对当前网络中视频媒体数量大、更新快、内容多、下载难,以及基于单机的视频网络爬虫系统中的处理速度慢、并发度低和下载速度慢等问题,提出了基于Hadoop框架的视频爬虫系统,为视频爬取提供了高并发度的处理和爬取速度.通过MapReduce计算模型实现网页抓取、分析、去重及下载等计算任务,Hadoop分布式文件系统(HDFS)存储各阶段计算任务的计算结果,运用多处备份机制,使得在某个结点退出时转移任务集,不影响整个系统的稳定性和有效性.实验结果表明完全分布式基于Hadoop的视频爬虫系统无论在单位时间内的视频下载速率还是爬取网页个数都明显高于未基于Hadoop的和伪分布式的视频爬虫系统.

英文摘要:

Current network has numerous,comprehensive,update sooner video content,and there exists some flaws such as slow disposing speed,low concurrency and slow download speeds in the video content crawler system based on single PC(personal computer).In consider of these problems,the video content crawler system was proposed based on Hadoop framework to acquire high concurrency processing and crawling speed.The MapReduce computation model was used to implement crawling,analysis,duplicate removal,downloads and other computing tasks,and the Hadoop distributed file system(HDFS)was used to do the storage for the coordination with the computing model.Experiment demonstrates that the video content crawler system based on Hadoop both in downloading speed and crawling webpage numbers are significantly higher than the single and pseud-distributed one.

同期刊论文项目
期刊论文 30 会议论文 46 获奖 2 专利 19
期刊论文 28 会议论文 48 专利 15
同项目期刊论文
期刊信息
  • 《计算机学报》
  • 北大核心期刊(2011版)
  • 主管单位:中国科学院
  • 主办单位:中国计算机学会 中国科学院计算技术研究所
  • 主编:孙凝晖
  • 地址:北京中关村科学院南路6号
  • 邮编:100190
  • 邮箱:cjc@ict.ac.cn
  • 电话:010-62620695
  • 国际标准刊号:ISSN:0254-4164
  • 国内统一刊号:ISSN:11-1826/TP
  • 邮发代号:2-833
  • 获奖情况:
  • 中国期刊方阵“双效”期刊
  • 国内外数据库收录:
  • 美国数学评论(网络版),荷兰文摘与引文数据库,美国工程索引,美国剑桥科学文摘,日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版),中国北大核心期刊(2000版)
  • 被引量:48433