云计算环境下海量RDF数据管理系统核心技术研究-东篱科研大数据发现系统（DRDS）

位置：立项数据库 > 立项详情页

云计算环境下海量RDF数据管理系统核心技术研究

项目名称：云计算环境下海量RDF数据管理系统核心技术研究
项目类别：面上项目
批准号：61170010
申请代码：F020204
项目来源：国家自然科学基金
研究期限：2012-01-01-2015-12-31

项目负责人：杜小勇
负责人职称：教授
依托单位：中国人民大学
批准年度：2011

中文摘要：

云计算平台由于其高度的可伸缩性和容错能力，引起了学术界和产业界的极大关注。云计算平台下的海量数据管理问题是其研究热点之一。本课题以互联网上普遍存在并正以指数速度增长的海量RDF数据为研究对象，探索如何在云计算平台下有效地管理RDF数据的基础理论和关键技术，包括RDF数据的聚合与演化规律，以及在云计算平台上如何高效地组织和管理海量RDF数据。围绕这两个科学问题，本课题将在以下五个方面开展研究RDF数据的聚合与演化规律的研究；RDF数据模式的自动抽取算法；基于云平台的RDF数据组织与自适应存储方法；基于云计算平台的SPAQRL查询处理与优化；原型系统研制和应用示范。通过基础理论、核心技术和系统研制的研究，深化对互联网上海量RDF数据性质的理解，掌握云平台上海量RDF数据管理的关键技术，为研制支持语义网应用的海量数据管理系统奠定坚实的基础。

中文主题词： RDF数据，；SPARQL查询，；云计算；数据管理；查询优化

英文摘要：

RDF data；SPARQL query；Cloud computing；Data management；Query optimization

英文主题词： RDF data；SPARQL query；Cloud computing；Data management；Query optimization

结论摘要：

本课题以互联网上以指数速度增长的海量RDF数据为研究对象，探索如何在云计算平台下有效地管理和查询RDF数据的关键技术问题。基本的科学问题有两个1) 探索海量RDF数据模式发现和演化的理论基础及其聚类和模式抽取的高效算法。（RDF数据聚类问题）2) 提出利用云平台提高海量RDF数据的自适应存储、并提高海量RDF数据SPARQL查询的效率的关键技术。（查询效率问题）课题主要研究内容与成果如下在数据聚类和模式抽取方面，我们通过对RDF数据的分析，利用相同主语和谓词自动识别RDF数据的模式，并参考Dirichlet聚类算法实现对RDF数据模式的聚类，将模式相似的RDF实体聚集在一起，为之后的RDF数据组织和存储建立基础。在数据分布和查询处理方面，我们实现了一个以Map/Reduce做计算、rdf查询引擎做存储的混合架构系统，提出了一种基于Query Pattern的数据划分方法，尽可能减少查询之间的跨节点连接。证明了将划分的小集合放置到各个节点是一个NP-hard问题，因此选择用LNS（Large Neighborhood Search）寻找最优解。在此基础上，我们研究了多种重要的技术，包括字符串的近似连接算法等，为实现高效的查询处理提供支撑。在原型系统研制方面，我们开发了“方圆”系统，这是一个基于云计算平台的RDF数据管理系统。方圆系统作为异构系统的数据集成工具，被应用于国家863计划项目“开放环境下海量web数据提取集成分析和管理系统平台与应用”中，能支持超过100亿条RDF数据的管理任务。经过4年的努力，课题组完成了该课题的技术指标申请专利4项，发表论文14篇（包括2篇已经接受尚没有发表的论文），其中，SCI期刊论文3篇（其中CCF A类期刊2篇）CCF A类会议论文 2篇，CCF B类会议论文5篇，CCF C类会议论文 1篇，国内一级学报论文2篇。申请专利4项，其中一项已经获得授权。

成果综合统计