Web上存在大量的结构化数据,大多处于深层Web数据库中,很难被一般的搜索引擎所检索。如何利用这些数据来满足用户的信息需求是长期以来的一个研究问题。早期的数据集成法更适合特定领域的垂直搜索引擎。近年来通用搜索引擎中使用的数据抓取法是预计算出尽可能多的相关页面,但由于这些页面被作为普通HTML页面一样被索引和检索,因而无法利用数据中原有的结构信息来改善检索效果。针对两者的主要缺陷,本项目的研究目标是研制一个跨领域的通用Web结构化信息检索引擎,既能在检索中充分利用结构信息,又是跨领域和通用的。具体地,我们将数据集成法和数据抓取法两者的优势结合在一起,并使用新的基于语言模型的结构化信息检索模型,充分利用数据和查询中的结构信息改善检索效果,并能将结构化数据和非结构化数据的检索统一在一个系统中,从而使得通用搜索引擎即时搜索Web上的各种结构的和非结构的数据成为可能。
英文主题词structured data on the Web;Deep Web;federated search;data source selection;structured keyword query