随着Web信息的激增,越来越多的信息开始由静态网页存储的方式向Web服务器维护的数据库即Deep Web转移,与Surface Web相比,Deep Web包含的信息具有更高的质量,同时也是Web上增长速度最快的信息载体,对Deep Web的研究已是Web搜索领域迫在眉睫的任务。本研究综合应用本体研究Deep Web搜索技术。结合Focused Crawling自动发现Deep Web站点,高效收集Deep Web数据库;准确抽取Deep Web入口表单的属性,获取查询接口的模式信息;设计基于本体的模式匹配算法,指导Deep Web数据库查询接口的模式匹配与融合;研究多数据库入口表单的查询分发与自动填充,实现统一表单接口下多Deep Web数据库的查询;最后以统一的模式将各个Deep Web数据库返回的不同形式查询结果展现给用户。基于上述技术构造某一领域Deep Web搜索的原型系统。
Ontology;Focused Crawling;Schema Matching;Schema Merging;Schema Integrating
本项目综合应用本体研究Deep Web搜索技术。对Deep Web搜索问题进行了系统、深入的研究,在Deep Web入口发现、表单模式抽取与集成、表单填充、查询分发、查询结果后处理等方面取得了系列化研究成果(1)Deep Web入口发现是实现Deep Web搜索的基础,为了高效定位Deep Web入口,提出了Deep Web入口发现框架WFF,该框架通过应用主题爬行技术和本体技术以层次形式构造网页分类器(WPC)、表单结构分类器(FSC)和表单内容分类器(FCC),实现了特定领域Deep Web入口的自动发现。(2)查询接口是外部访问Deep Web数据库的门户,为了准确抽取查询接口模式,设计了基于启发式规则信息的查询接口区域定位算法以及基于网页可视化特征和本体的Deep Web查询接口语义属性抽取算法,从而获取查询接口的语义模型。(3)Deep Web接口集成主要完成两个方面的工作接口模式匹配与接口模式融合。接口模式匹配采用本体概念映射方法,在不同接口模式间建立属性映射关系,实现不同Deep Web数据库查询接口属性的匹配过程。接口模式融合根据接口模式匹配的结果,合并了Deep Web数据库查询接口集合中表示同一语义的属性,保留了一些查询接口中特定的属性,从而得到集成查询接口。(4)Deep Web表单自动填充的本质是用源表单查询构造目标表单查询,为了准确实现查询转换,设计了基于本体的查询转换算法,将用户提交的查询条件分解成与各个Deep Web数据库查询接口相适应的查询条件,实现用户透明的全局统一查询接口向各个Deep Web表单的查询分发与表单自动填充。(5)Deep Web查询结果后处理最终要将从各个Web数据库获得的数据合并为统一的模式返回给用户,为此,设计了基于本体的最大相关度子树算法用于识别查询结果数据区域,并利用混合的启发式规则对数据记录进行分割和抽取,同时,使用本体对抽取的数据进行注释,实现了异构查询结果页面的集成。(6)构建了一个面向图书领域的DeepSearch搜索系统。基于本项目,课题组在SCI期刊、EI国际期刊、国际会议、一级学报和核心期刊上共发表论文26篇,其中SCI国际期刊3篇、EI国际期刊12篇、一级学报3篇。被SCI检索3次、EI检索15次、ISTP检索3次。此外,申请专利1项,软件著作权1项。