现有技术在deep Web数据源排序方面,仅考虑了查询接口网页与主题关键字的相关度,忽视了同一主题的多个数据源之间在数据质量方面的差别以及之间的相互包含覆盖关系。本项目研究具有低查询费用和高样本代表性的样本查询选择方法,该方法利用关系属性与值分布、属性值联系规则挖掘和启发式方法提高查询效率和样本对全局数据库的代表性;研究deep Web数据源质量和覆盖关系建模;研究由样本查询得到的样本数据库对各个数据源质量和覆盖关系进行交互比较自动估计、增量估计、聚簇分析和最小覆盖集计算;研究基于数据源质量和覆盖估计,对同一主题的deep Web数据源排序的算法。该研究内容是海量Web信息搜索和综合利用的共性应用基础理论问题。该研究成果将提高目前deep Web搜索的排序质量和用户体验,可作为deep Web集成中数据源选择的重要依据,可加深对隐藏的deep Web数据源的质量、分布及其演变的理解。