通用Web结构化信息检索引擎的关键技术研究-东篱科研大数据发现系统（DRDS）

位置：立项数据库 > 立项详情页

通用Web结构化信息检索引擎的关键技术研究

项目名称：通用Web结构化信息检索引擎的关键技术研究
项目类别：青年科学基金项目
批准号：61202331
申请代码：F020511
项目来源：国家自然科学基金
研究期限：2013-01-01-2015-12-31

项目负责人：王秋月
依托单位：中国人民大学
批准年度：2012

中文摘要：

Web上存在大量的结构化数据，大多处于深层Web数据库中，很难被一般的搜索引擎所检索。如何利用这些数据来满足用户的信息需求是长期以来的一个研究问题。早期的数据集成法更适合特定领域的垂直搜索引擎。近年来通用搜索引擎中使用的数据抓取法是预计算出尽可能多的相关页面，但由于这些页面被作为普通HTML页面一样被索引和检索，因而无法利用数据中原有的结构信息来改善检索效果。针对两者的主要缺陷，本项目的研究目标是研制一个跨领域的通用Web结构化信息检索引擎，既能在检索中充分利用结构信息，又是跨领域和通用的。具体地，我们将数据集成法和数据抓取法两者的优势结合在一起，并使用新的基于语言模型的结构化信息检索模型，充分利用数据和查询中的结构信息改善检索效果，并能将结构化数据和非结构化数据的检索统一在一个系统中，从而使得通用搜索引擎即时搜索Web上的各种结构的和非结构的数据成为可能。

中文主题词： Web结构化数据；深层网；联邦搜索；数据源选择；结构化关键词查询

结论摘要：

英文主题词structured data on the Web；Deep Web；federated search；data source selection；structured keyword query

成果综合统计