位置:成果数据库 > 期刊 > 期刊详情页
基于语义分析的垂直搜索网络蜘蛛
  • ISSN号:1000-7024
  • 期刊名称:《计算机工程与设计》
  • 时间:0
  • 分类:TP391.9[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]广东工业大学数字媒体系,广东广州510006, [2]华南理工大学广东省计算机网络重点实验室,广东广州510640
  • 相关基金:国家自然科学基金项目(90412015).
中文摘要:

通用搜索引擎数据量庞大,但查询结果不够准确。分类目录正好相反。为了综合两者优势,对垂直搜索引擎进行了研究和分析。着重研究了垂直搜索引擎的核心模块——智能网络搜索蜘蛛。提出了搜索分析的新概念——规则。研究了蜘蛛中定义支持同义词的语义词典的方法,给出了按照规则分析和检索的实现方法和流程。程序需要定义多种规则,让蜘蛛依照规则进行网页爬行和信息采集。最后给出一个项目实例,证明了上述方法的可行性。

英文摘要:

General search engine has large volume of data, but its search results are not accurate enough. Directories classification is on the contrary. In order to integrate advantages of the two, vertical search engine is studied and analyzed. The core module--intelligent search spider is mainly focused on. A new concept about searching and analyzing is brought forward: Rules. The method is researched that defining semantic dictionary which supports synonyms. The algorithm and flow that realize searching and analyzing according rules are afforded. Kinds of rules must be defined in search spider program, depending on which the function web pages crawling and information data extracting work. At last a project example is presented to prove the feasibility of these methods.

同期刊论文项目
同项目期刊论文
期刊信息
  • 《计算机工程与设计》
  • 北大核心期刊(2011版)
  • 主管单位:中国航天科工集团
  • 主办单位:中国航天科工集团二院706所
  • 主编:汤铭瑞
  • 地址:北京142信箱37分箱
  • 邮编:100854
  • 邮箱:ced@china-ced.com
  • 电话:010-68389884
  • 国际标准刊号:ISSN:1000-7024
  • 国内统一刊号:ISSN:11-1775/TP
  • 邮发代号:82-425
  • 获奖情况:
  • 中国科学引文数据库来源期刊,中国学术期刊综合评价数据库来源期刊,中国科技论文统计与分析用期刊
  • 国内外数据库收录:
  • 波兰哥白尼索引,美国剑桥科学文摘,英国科学文摘数据库,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版)
  • 被引量:45616