深层网(Deep Web)指那些存储在Web数据库里、不能通过超链接访问而需要通过动态网页技术访问的资源集合。据估计,深层网的资源容量约为表层网(Surface Web)的500倍,而且包含更多有价值的资源。本课题的主要研究目标是在错综复杂的深层网,仔细分析深层网的特性,建立一套自适应的数据集成和排序模型,意在从数量庞大的数据源中找出最符合用户需求的记录优先返回给用户。着眼于大规模和自适应的数据集成,本项目研究具有四个创新点1)基于统计的数据源查询接口的分析方法; 2)基于加权属性值图的Web数据库采样方法;3)利用属性值相似度对齐记录和其他数据源的标签标注属性值;4)研究动态地根据记录相似度的记录排序算法。本项目拟通过实验论证模型适用性和实用性,为Web数据库集成的应用需求,也为其他异构数据库的数据集成研究提供新思路和新方法。
Deep Web;data extraction;data integration;;
本项目针对通用和垂直搜素引擎对深层网搜索的实际需求,深入重研究在动态Web环境下大规模和自适应的深层网数据集成和排序理论。研究内容分为4个方面1)数据源查询接口分析; 2)Web 数据库采样方法;3)记录抽取;4)记录排序。通过本项目的研究,取得了一批有意义的研究成果。特别在两个问题上做出有意义的探索1)是提出基于最大熵原理自动地把查询接口根据语义组合分析成为一颗语义树,提出新的语法与特征,实验表明该模型能精确地把查询接口提取出来,有效地克服了现有查询接口分析所存在的问题。2)使用一个新的记录提取和对齐模型, 该模型结合了标记和属性值的相似度,进行数据抽取,有效地解决查询结果页面常见的三类问题。此外,项目组成员积极开拓、丰富相关领域的研究。提出新的数据采样方法和记录排序模型,努力将课题组的工作系统化、流程化。建立以从查询接口分析、数据采样、记录抽取和排序的系统化理论和方法。基本完善了Web数据库数据抽取与集成的理论和算法工作。已发表(录用)学术论文13篇。其中权威期刊4篇,包括IEEE Transaction on Knowledge and Data Engineering(TKDE), ACM Transaction on Web(Tweb)等,本领域顶级国际学术会议论文2篇,包括CIKM等。收录SCI 3 篇(含SCI源);另投出相关学术论文2篇。本项目达到并超过了预定的研究目标,系统化、完备化了Web数据库数据抽取与集成流程。因此本项目的研究不仅具有十分重要的学术价值,而且在课题组未来的研究工作中极大的拓展、完善相关研究问题的完整解决,具有广阔的应用前景。