位置:立项数据库 > 立项详情页
基于领域本体的Web语义爬行策略研究
  • 项目名称:基于领域本体的Web语义爬行策略研究
  • 项目类别:面上项目
  • 批准号:60872089
  • 申请代码:F010409
  • 项目来源:国家自然科学基金
  • 研究期限:2009-01-01-2011-12-31
  • 项目负责人:杜亚军
  • 负责人职称:教授
  • 依托单位:西华大学
  • 批准年度:2008
中文摘要:

主题搜索引擎从Web中有选择地获取与主题相关的网络资源,以提高获取网页的准确率和搜索结果的速度。因此以何种策略去访问Web,成为主题爬行引擎的研究热点。本项目通过研究基于链接结构、网页内容、以及链接与内容相结合的主题爬行策略,提出了基于网页语义的概念背景图的主题爬行方法。重点研究基于Ontology的用户查询词扩展方法,解决网络蜘蛛爬行过程中网页与用户查询词的语义关系,以达到不同的用户在相同和同一用户不同的查询关键词下,个性化地获取网页的目的。本项目主要研究内容在于1)构建用户-查询词语义本体;2)结合网页语义的具体特征,建立网页的语义表示数学模型;3)形式化地建立用户兴趣的主题概念背景图,研究网页与用户兴趣的语义距离,提供网络爬行虫的选择爬行方向的方法;4)爬行结果的评价模型。通过研究预期获得一套语义信息获取的新思想、新方法、新技术、新系统。 本研究具有重要的理论意义和广阔应用前景。

结论摘要:

英文主题词Topic-specific crawling; Ontology; Formal concept; Web crawler; Semantic context graph


成果综合统计
成果类型
数量
  • 期刊论文
  • 会议论文
  • 专利
  • 获奖
  • 著作
  • 26
  • 14
  • 0
  • 0
  • 0
相关项目
期刊论文 32 会议论文 3 专利 1
期刊论文 44 会议论文 17
期刊论文 5 会议论文 4 专利 1
杜亚军的项目