位置:成果数据库 > 期刊 > 期刊详情页
基于在线增量学习的自适应聚焦爬虫研究
  • ISSN号:1000-386X
  • 期刊名称:计算机应用与软件
  • 时间:0
  • 页码:25-27
  • 语言:中文
  • 分类:TP18[自动化与计算机技术—控制科学与工程;自动化与计算机技术—控制理论与控制工程] TB566[交通运输工程—水声工程;理学—物理;理学—声学;一般工业技术]
  • 作者机构:[1]河北农业大学信息科学与技术学院,河北保定071001, [2]中科院自动化所复杂系统与智能科学实验室,北京100190
  • 相关基金:国家自然科学基金(60621001,6057378);中国科学院海外合作伙伴计划项目(2F05N01).
  • 相关项目:智能控制与计算智能的方法及应用
中文摘要:

在原始分类器聚焦爬虫的基础上设计并实现在线增量学习的自适应聚焦爬虫。该聚焦爬虫包括一个基础网页分类器和一个在线增量学习自适应链接分类器。基础页面分类器根据领域知识对抓取到的页面内容主题相关性进行分类。在线增量学习自适应链接分类器能即时根据爬虫爬得网页和网页链接信息作出分类模型调整以更合理方式计算链接的主题相关度。系统中链接排序模块采用TopicalRank主题相关度计算方法分析链接优先抓取顺序。把基于增量学习的自适应聚焦爬虫应用到农业领域,实验结果和分析证明在线增量学习的自适应聚焦爬虫在农业领域爬行性能比仅基于网页相关性和链接重要度的原始分类器聚焦爬虫具有更好的性能。

英文摘要:

An adaptive focused crawler of online-incremental learning based on primitive classification focused crawler is designed and realized in this article. The crawler' s architecture includes a basic webpage classifier and an online-incremental learning adaptive link classifier. The basic webpage classifier is used to classify the correlation of fetched content' s topics of pages according to domain knowledge. The online- incremental learning adaptive link classifier is able to adjust the classifying model instantly according to the web pages fetched by the crawler and the link information of the web pages, and to calculate correlation degree of the linked topics more reasonably. The Links Sorting Module in the system uses Topicalrank algorithm of topic correlation degree to analyze the preferential fetching sequence of the links. The paper introduces the application of incremental learning-based adaptive focused crawler in agriculture field. Experimental result and analysis demonstrate that, with regard to the crawling performance in agriculture field, the online-incremental learning adaptive focused crawler has more excellent performance than the primitive classifier focused crawler based only on web pages' correlation and link importance degree.

同期刊论文项目
期刊论文 136 会议论文 132 专利 40 著作 7
同项目期刊论文
期刊信息
  • 《计算机应用与软件》
  • 北大核心期刊(2011版)
  • 主管单位:上海科学院
  • 主办单位:上海市计算技术研究所 上海计算机软件技术开发中心
  • 主编:朱三元
  • 地址:上海市愚园路546号
  • 邮编:200040
  • 邮箱:cas@sict.stc.sh.cn
  • 电话:021-62254715 62520070-505
  • 国际标准刊号:ISSN:1000-386X
  • 国内统一刊号:ISSN:31-1260/TP
  • 邮发代号:4-379
  • 获奖情况:
  • 全国计算机类中文核心期刊
  • 国内外数据库收录:
  • 波兰哥白尼索引,美国剑桥科学文摘,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2011版),中国北大核心期刊(2000版)
  • 被引量:27463