位置:立项数据库 > 立项详情页
Web抽样理论研究与应用
  • 项目名称:Web抽样理论研究与应用
  • 项目类别:青年科学基金项目
  • 批准号:60603056
  • 申请代码:F0208
  • 项目来源:国家自然科学基金
  • 研究期限:2007-01-01-2007-12-31
  • 项目负责人:闫宏飞
  • 负责人职称:副教授
  • 依托单位:北京大学
  • 批准年度:2006
中文摘要:

截至2005 年12 月底,全球有9 亿多Web用户,中国有1.11 亿多用户。从原则上讲,读者数和作者数在同一个量级,因为形式和内容的随意性很强,基于信息检索技术的搜索引擎是连接Web和上网用户的纽带。为了推动中文信息检索技术发展,从而改进搜索引擎等系统,需要大规模有代表性测试集。因此研究Web抽样理论和方法指导构建测试集成为必要。我们的研究目标是针对Web 2.0新特点和用户的倾向,研究适合静态和动态网页的抽样技术;以此理论指导,形成一个通用的构造大规模代表性Web测试集的框架,应用此框架构造出大规模有代表性中文Web测试集,从而吸引研究中文信息检索的研究机构参与进来,推动中文信息检索技术发展;进而开发适合于此大规模测试集的工具和原型检索系统,达到吸引更多的研究机构使用此测试集,降低使用者的门槛。

结论摘要:

截至2005 年12 月底,全球有9 亿多Web 用户,中国有1.11 亿多用户。从原则上讲,读者数和作者数在同一个量级,因为形式和内容的随意性很强,基于信息检索技术的搜索引擎是连接Web 和上网用户的纽带。为了推动中文信息检索技术发展,从而改进搜索引擎等系统,需要大规模有代表性测试集。因此研究Web 抽样理论和方法指导构建测试集成为必要。我们的研究是针对Web 特点和用户的倾向,研究适合的抽样技术;以此理论指导,形成一个通用的构造大规模代表性Web 测试集的框架,应用此框架构造出大规模有代表性中文Web 测试集,从而吸引研究中文信息检索的研究机构参与进来,推动中文信息检索技术发展。


成果综合统计
成果类型
数量
  • 期刊论文
  • 会议论文
  • 专利
  • 获奖
  • 著作
  • 7
  • 2
  • 0
  • 0
  • 0
相关项目
期刊论文 14 会议论文 8 获奖 6
期刊论文 122 会议论文 11 获奖 4 专利 2
期刊论文 27 会议论文 41
闫宏飞的项目
期刊论文 5 会议论文 23 著作 2