位置:成果数据库 > 期刊 > 期刊详情页
一种改进的T-Spider分布式爬虫
  • 期刊名称:微电子学与计算机
  • 时间:0
  • 页码:102-104
  • 语言:中文
  • 分类:TP311[自动化与计算机技术—计算机软件与理论;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]武汉科技大学计算机科学与技术学院,湖北武汉430065, [2]东南大学计算机科学与工程学院,江苏南京210096
  • 相关基金:国家自然科学基金(60803160); 中国博士后科学基金(20060400275); 江苏省博士后科学基金(0601009B); 湖北省自然科学基金重点计划项目(2009CDA136,2009CDA034); 湖北省教育厅科研项目(Q20101110,D2009110); 武汉市科技攻关计划项目(201110821225)
  • 相关项目:松耦合环境下基于本体的语义演化与聚合机制研究
作者: 顾进广|金凡|
中文摘要:

为了提高互联网网页的抓取速度,提出了一个改进的T-Spider分布式爬虫模型.该爬虫在解析URL阶段将页面进行切割以并行解析,在页面调度阶段使用改进的链接优先权计算方法,提高爬虫的抓取速度和稳定性.通过实验结果分析,验证了该方法的有效性.

英文摘要:

To increase the speed of the crawler,this paper proposes a model that is based on the T-Spider.During the time of extracting links from the page content,the crawler takes use of the page cutting algorithm,and then uses a new algorithm of link priority computing to enhance the stability and increase the speed of the crawler.The experiment shows that it is availability.

同期刊论文项目
同项目期刊论文