截至2005 年12 月底,全球有9 亿多Web用户,中国有1.11 亿多用户。从原则上讲,读者数和作者数在同一个量级,因为形式和内容的随意性很强,基于信息检索技术的搜索引擎是连接Web和上网用户的纽带。为了推动中文信息检索技术发展,从而改进搜索引擎等系统,需要大规模有代表性测试集。因此研究Web抽样理论和方法指导构建测试集成为必要。我们的研究目标是针对Web 2.0新特点和用户的倾向,研究适合静态和动态网页的抽样技术;以此理论指导,形成一个通用的构造大规模代表性Web测试集的框架,应用此框架构造出大规模有代表性中文Web测试集,从而吸引研究中文信息检索的研究机构参与进来,推动中文信息检索技术发展;进而开发适合于此大规模测试集的工具和原型检索系统,达到吸引更多的研究机构使用此测试集,降低使用者的门槛。
截至2005 年12 月底,全球有9 亿多Web 用户,中国有1.11 亿多用户。从原则上讲,读者数和作者数在同一个量级,因为形式和内容的随意性很强,基于信息检索技术的搜索引擎是连接Web 和上网用户的纽带。为了推动中文信息检索技术发展,从而改进搜索引擎等系统,需要大规模有代表性测试集。因此研究Web 抽样理论和方法指导构建测试集成为必要。我们的研究是针对Web 特点和用户的倾向,研究适合的抽样技术;以此理论指导,形成一个通用的构造大规模代表性Web 测试集的框架,应用此框架构造出大规模有代表性中文Web 测试集,从而吸引研究中文信息检索的研究机构参与进来,推动中文信息检索技术发展。