Web抽样理论研究与应用-东篱科研大数据发现系统（DRDS）

位置：立项数据库 > 立项详情页

Web抽样理论研究与应用

项目名称：Web抽样理论研究与应用
项目类别：青年科学基金项目
批准号：60603056
申请代码：F0208
项目来源：国家自然科学基金
研究期限：2007-01-01-2007-12-31

项目负责人：闫宏飞
负责人职称：副教授
依托单位：北京大学
批准年度：2006

中文摘要：

截至2005 年12 月底，全球有9 亿多Web用户，中国有1.11 亿多用户。从原则上讲，读者数和作者数在同一个量级，因为形式和内容的随意性很强，基于信息检索技术的搜索引擎是连接Web和上网用户的纽带。为了推动中文信息检索技术发展，从而改进搜索引擎等系统，需要大规模有代表性测试集。因此研究Web抽样理论和方法指导构建测试集成为必要。我们的研究目标是针对Web 2.0新特点和用户的倾向，研究适合静态和动态网页的抽样技术；以此理论指导，形成一个通用的构造大规模代表性Web测试集的框架，应用此框架构造出大规模有代表性中文Web测试集，从而吸引研究中文信息检索的研究机构参与进来，推动中文信息检索技术发展；进而开发适合于此大规模测试集的工具和原型检索系统，达到吸引更多的研究机构使用此测试集，降低使用者的门槛。

中文主题词： Web，采样，测试集，代表性

英文摘要：

Web;sampling;collection;repres

英文主题词： Web;sampling;collection;repres

结论摘要：

截至2005 年12 月底，全球有9 亿多Web 用户，中国有1.11 亿多用户。从原则上讲，读者数和作者数在同一个量级，因为形式和内容的随意性很强，基于信息检索技术的搜索引擎是连接Web 和上网用户的纽带。为了推动中文信息检索技术发展，从而改进搜索引擎等系统，需要大规模有代表性测试集。因此研究Web 抽样理论和方法指导构建测试集成为必要。我们的研究是针对Web 特点和用户的倾向，研究适合的抽样技术；以此理论指导，形成一个通用的构造大规模代表性Web 测试集的框架，应用此框架构造出大规模有代表性中文Web 测试集，从而吸引研究中文信息检索的研究机构参与进来，推动中文信息检索技术发展。

成果综合统计