Web可分为Surface Web和Deep Web。Deep Web数据量大、主题专一、数据质量高,其价值远远超过了Surface Web,然而传统的搜索引擎搜索不出这部分数据。为了方便用户高效使用Deep Web数据,大规模Deep Web数据集成的研究已成为一个非常迫切的问题。查询结果的抽取与整合是Deep Web数据集成中的重要环节,存在着许多困难和挑战。本项目拟探讨其中最为核心的三个关键技术研究查询结果页面抽取技术,充分利用页面的结构特征和内容特征,实现结构化数据的自动抽取;研究查询结果数据语义标注技术,充分利用Web数据元素之间的逻辑约束关系,提高语义标注的准确性,并实现多数据源数据模式的一致性;研究大规模重复记录检测技术,构建领域层次的重复记录检测模型,实现同一领域大规模Web数据库之间自动的重复记录检测。项目成果预期将在商业智能、企业搜索、情报分析等系统中。
Deep Web Data Integration;Web Data Extraction;Web Data Semantic Annotation;Duplicate Record Detection;Deep Web Crawling
项目组全面完成任务书中各项任务,发表论文22篇,其中SCI检索4篇,EI检索17篇,ISTP检索5篇,申请专利1项,获得软件著作权2项。项目负责人董永权入选江苏省“青蓝工程”优秀青年骨干教师,在美国纽约州立大学宾汉姆顿分校计算机系进行为期一年的访问学习。 本项目主要围绕Deep Web数据集成中查询结果处理的关键技术展开研究, 主要包括(1)在查询结果页面抽取方面,针对列表页面,提出一种基于视觉信息和部分树对齐的Web数据抽取方法。该方法充分利用页面的视觉信息,利用聚类及重组方法进行数据记录抽取,利用部分树对齐方法进行数据项抽取,有效提高了列表页面的抽取准确率;针对详细页面,提出一种基于集成学习的Web数据抽取方法。该方法充分利用页面的结构特征和内容特征,集成多个分类器的抽取结果,有效提高了详细页面的抽取准确率。(2)在查询结果语义标注方面,首先提出一种基于半监督条件随机场的Web数据语义标注方法。该方法仅需要较少的训练集,减少了人工标注的负担,同时综合利用多种特征(文字特征、上下文特征、语义特征等)训练条件随机场模型,具有较好的标注性能。在此基础上又进一步展开研究,提出一种基于约束条件随机场模型的Web数据语义标注方法。该方法充分利用了已有的Web数据库信息和Web数据元素之间的逻辑关系,有效提高了Web数据语义标注的性能。(3)在大规模重复记录检测方面,提出一种三段式自动重复记录检测方法。该方法利用聚类集成方法自动选择初始训练集,避免手工标注,提高初始训练集选择的准确率;利用协同训练方法学习任意两个Web数据源之间的分类模型,提高了分类的准确性;利用证据理论方法构建领域层次的重复记录检测模型,有效地实现了同一领域内大规模Web数据源之间的重复记录检测。(4)在Web数据获取方面,提出一种基于查询词采新率模型的Deep Web爬取方法。该方法克服了已有方法单一性和经验性的不足,有效的保证了查询的无关性,从而确保查询样本的覆盖度,减少其冗余性。