位置:成果数据库 > 期刊 > 期刊详情页
A New Framework for Focused Web Crawling
  • ISSN号:1003-7985
  • 期刊名称:《东南大学学报:英文版》
  • 时间:0
  • 分类:TP391[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]College of Computer Science and Technology/KeyLaboratory of Symbol Computation and Knowledge Engineering of the Ministry of Education, Jilin University, Changehun130012, Jilin, China
  • 相关基金:Supported by the National Natural ,Science Foundation of China (60373099)
中文摘要:

集中的爬虫是重要工具支持象专业化门户网站那样的应用,联机寻找,;网搜索引擎。赶的爬虫选择最好的 URL 的一个话题;相关的页将在网爬行期间追求。处理无关的页是困难的。这篇论文论述一个新奇集中的爬虫框架。在我们的集中的爬虫,我们建议一个方法克服一些处理无关的页的限制。我们也介绍我们的集中的爬虫的实现;介绍一些重要度量标准;为评价页关联的评估功能。试验性的结果证明我们的爬虫能获得更多的“重要”的页;有高精确;召回价值。

英文摘要:

Focused crawlers are important tools to support applications such as specialized Web portals, online searching, and Web search engines. A topic driven crawler chooses the best URLs and relevant pages to pursue during Web crawling. It is difficult to deal with irrelevant pages. This paper presents a novel focused crawler framework. In our focused crawler, we propose a method to overcome some of the limitations of dealing with the irrelevant pages. We also introduce the implementation of our focused crawler and present some important metrics and an evaluation function for ranking pages relevance. The experimental result shows that our crawler can obtain more "important" pages and has a high precision and recall value.

同期刊论文项目
期刊论文 39 会议论文 21
同项目期刊论文
期刊信息
  • 《东南大学学报:英文版》
  • 主管单位:教育部
  • 主办单位:东南大学
  • 主编:毛善锋
  • 地址:南京市四牌楼2号
  • 邮编:210096
  • 邮箱:xuebao@seu.edu.cn
  • 电话:025-83794323 83794343传
  • 国际标准刊号:ISSN:1003-7985
  • 国内统一刊号:ISSN:32-1325/N
  • 邮发代号:
  • 获奖情况:
  • 2010年和2012年荣获第三届和第四届中国高校优秀科...
  • 国内外数据库收录:
  • 美国化学文摘(网络版),美国数学评论(网络版),德国数学文摘,荷兰文摘与引文数据库,美国工程索引,美国剑桥科学文摘,英国科学文摘数据库
  • 被引量:493