基于数据质量和覆盖估计的deep Web数据源排序研究-东篱科研大数据发现系统（DRDS）

位置：立项数据库 > 立项详情页

基于数据质量和覆盖估计的deep Web数据源排序研究

项目名称：基于数据质量和覆盖估计的deep Web数据源排序研究
项目类别：面上项目
批准号：60773007
申请代码：F020204
项目来源：国家自然科学基金
研究期限：2008-01-01-2008-12-31

项目负责人：李石君
负责人职称：教授
依托单位：武汉大学
批准年度：2007

中文摘要：

现有技术在deep Web数据源排序方面，仅考虑了查询接口网页与主题关键字的相关度，忽视了同一主题的多个数据源之间在数据质量方面的差别以及之间的相互包含覆盖关系。本项目研究具有低查询费用和高样本代表性的样本查询选择方法，该方法利用关系属性与值分布、属性值联系规则挖掘和启发式方法提高查询效率和样本对全局数据库的代表性；研究deep Web数据源质量和覆盖关系建模；研究由样本查询得到的样本数据库对各个数据源质量和覆盖关系进行交互比较自动估计、增量估计、聚簇分析和最小覆盖集计算；研究基于数据源质量和覆盖估计，对同一主题的deep Web数据源排序的算法。该研究内容是海量Web信息搜索和综合利用的共性应用基础理论问题。该研究成果将提高目前deep Web搜索的排序质量和用户体验，可作为deep Web集成中数据源选择的重要依据，可加深对隐藏的deep Web数据源的质量、分布及其演变的理解。

中文主题词： deep Web；排序；数据质量；覆盖关系；抽样

成果综合统计