主题搜索引擎从Web中有选择地获取与主题相关的网络资源,以提高获取网页的准确率和搜索结果的速度。因此以何种策略去访问Web,成为主题爬行引擎的研究热点。本项目通过研究基于链接结构、网页内容、以及链接与内容相结合的主题爬行策略,提出了基于网页语义的概念背景图的主题爬行方法。重点研究基于Ontology的用户查询词扩展方法,解决网络蜘蛛爬行过程中网页与用户查询词的语义关系,以达到不同的用户在相同和同一用户不同的查询关键词下,个性化地获取网页的目的。本项目主要研究内容在于1)构建用户-查询词语义本体;2)结合网页语义的具体特征,建立网页的语义表示数学模型;3)形式化地建立用户兴趣的主题概念背景图,研究网页与用户兴趣的语义距离,提供网络爬行虫的选择爬行方向的方法;4)爬行结果的评价模型。通过研究预期获得一套语义信息获取的新思想、新方法、新技术、新系统。 本研究具有重要的理论意义和广阔应用前景。
英文主题词Topic-specific crawling; Ontology; Formal concept; Web crawler; Semantic context graph