位置:成果数据库 > 期刊 > 期刊详情页
主题爬虫的设计与实现
  • ISSN号:1673-629X
  • 期刊名称:计算机技术与发展
  • 时间:2014.8
  • 页码:99-102
  • 分类:TP31[自动化与计算机技术—计算机软件与理论;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]南京邮电大学计算机学院,江苏南京210003
  • 相关基金:国家自然科学基金资助项目(61170322)
  • 相关项目:过渡现象的处理方法及其逻辑基础的研究
作者: 林子皓|
中文摘要:

在信息化爆炸的时代,一般搜索引擎的搜索结果已经满足不了人们的需要,能获得更准确全面信息的垂直搜索引擎越来越受到关注。其中,主题爬虫作为垂直搜索引擎的核心部分一直是搜索方向的研究热点。文中在分析主题爬虫的结构及特征的基础上,通过引入自己的主题相关度评价方法以及HITS网页排序算法,构建了一个主题爬虫。文中给出了爬虫实现的具体步骤,以云计算为主题,进行了实验。实验结果较好地反映了主题爬虫的实用性。

英文摘要:

In the era of information explosion,the general crawler cannot meet the requirements of personalized search in specific areas, but the topic crawler which can obtain more accurate and comprehensive information gets more attention. Among them,the topic crawler as the core part of the vertical search engine has been the research focus in the search direction. On the basis of analyzing the structure and characteristics of the topic crawler,design a topic crawler by introducing its own measurement of topic similarity and page ranking algorithm of HITS. Offer specific steps of implementing the crawler. An experiment with the theme of cloud computing has been carried out, which proves the practical applicability of topic crawler.

同期刊论文项目
同项目期刊论文
期刊信息
  • 《计算机技术与发展》
  • 中国科技核心期刊
  • 主管单位:陕西省工业和信息化厅
  • 主办单位:陕西省计算机学会
  • 主编:王守智
  • 地址:西安市雁塔路南段99号
  • 邮编:710054
  • 邮箱:ctad@vip.163.com
  • 电话:029-85522163
  • 国际标准刊号:ISSN:1673-629X
  • 国内统一刊号:ISSN:61-1450/TP
  • 邮发代号:52-127
  • 获奖情况:
  • 《CAJ-CD规范》执行优秀期刊
  • 国内外数据库收录:
  • 中国中国科技核心期刊
  • 被引量:21263