位置:立项数据库 > 立项详情页
主题无关的高质量WEB页面预选与检索研究
  • 项目名称:主题无关的高质量WEB页面预选与检索研究
  • 项目类别:青年科学基金项目
  • 批准号:60503064
  • 申请代码:F0205
  • 项目来源:国家自然科学基金
  • 研究期限:2006-01-01-2008-12-31
  • 项目负责人:张敏
  • 负责人职称:副教授
  • 依托单位:清华大学
  • 批准年度:2005
中文摘要:

由于网络数据的大量膨胀,目前拥有最大规模网页索引量的搜索引擎也无法索引并检索互联网上的所有网页。如何通过与用户查询无关的方法来判断一个网页的质量,从而保留最有价值的数据,已成为搜索引擎技术的一大挑战。本项目研究Web高质量页面预选与检索方法。在页面预选方面,首先提出了基于网页文档和基于用户行为的多种特征;其次提出了三种高质量页面筛选学习方法,在中文大规模数据集上,实现只选择8%的网页能够保留95%以上高质量页面;此外,还提出一种基于用户行为的Web垃圾页面识别方法,检测精度达94%,且比现有商业搜索引擎提前半个月发现5千多万个垃圾网页。在页面预选基础上,研究新信息检索计算的结构,提出网页内可靠信息提取及文档重构方法,并提出一种产生式检索模型,从而建立应用于高质量页面集合的信息检索模型与方法。此外,本项目提出了信息检索自动评价方法,为相关研究测试提供了重要基础。本项目除提出一系列新算法外,还建立了一个大规模中文互联网资源库,包括1万个用户查询语料库及相应的结果标注语料库、以及超过1.3亿网页数据,总存储规模达到5T以上,免费提供学术界使用;并建立了一个自动评价系统,已提供在线公开服务。

结论摘要:

英文主题词Web information retrieval, data cleansing,topic-independent features, high quality pages, user behavior analysis


成果综合统计
成果类型
数量
  • 期刊论文
  • 会议论文
  • 专利
  • 获奖
  • 著作
  • 22
  • 0
  • 0
  • 0
  • 0
相关项目
期刊论文 9 会议论文 6 获奖 2 专利 4 著作 1
张敏的项目
期刊论文 7 会议论文 5
期刊论文 30 会议论文 35 专利 10