位置:立项数据库 > 立项详情页
云计算环境下海量RDF数据管理系统核心技术研究
  • 项目名称:云计算环境下海量RDF数据管理系统核心技术研究
  • 项目类别:面上项目
  • 批准号:61170010
  • 申请代码:F020204
  • 项目来源:国家自然科学基金
  • 研究期限:2012-01-01-2015-12-31
  • 项目负责人:杜小勇
  • 负责人职称:教授
  • 依托单位:中国人民大学
  • 批准年度:2011
中文摘要:

云计算平台由于其高度的可伸缩性和容错能力,引起了学术界和产业界的极大关注。云计算平台下的海量数据管理问题是其研究热点之一。本课题以互联网上普遍存在并正以指数速度增长的海量RDF数据为研究对象,探索如何在云计算平台下有效地管理RDF数据的基础理论和关键技术,包括RDF数据的聚合与演化规律,以及在云计算平台上如何高效地组织和管理海量RDF数据。围绕这两个科学问题,本课题将在以下五个方面开展研究RDF数据的聚合与演化规律的研究;RDF数据模式的自动抽取算法;基于云平台的RDF数据组织与自适应存储方法;基于云计算平台的SPAQRL查询处理与优化;原型系统研制和应用示范。通过基础理论、核心技术和系统研制的研究,深化对互联网上海量RDF数据性质的理解,掌握云平台上海量RDF数据管理的关键技术,为研制支持语义网应用的海量数据管理系统奠定坚实的基础。

结论摘要:

本课题以互联网上以指数速度增长的海量RDF数据为研究对象,探索如何在云计算平台下有效地管理和查询RDF数据的关键技术问题。基本的科学问题有两个1) 探索海量RDF数据模式发现和演化的理论基础及其聚类和模式抽取的高效算法。(RDF数据聚类问题)2) 提出利用云平台提高海量RDF数据的自适应存储、并提高海量RDF数据SPARQL查询的效率的关键技术。(查询效率问题)课题主要研究内容与成果如下在数据聚类和模式抽取方面,我们通过对RDF数据的分析,利用相同主语和谓词自动识别RDF数据的模式,并参考Dirichlet聚类算法实现对RDF数据模式的聚类,将模式相似的RDF实体聚集在一起,为之后的RDF数据组织和存储建立基础。在数据分布和查询处理方面,我们实现了一个以Map/Reduce做计算、rdf查询引擎做存储的混合架构系统,提出了一种基于Query Pattern的数据划分方法,尽可能减少查询之间的跨节点连接。证明了将划分的小集合放置到各个节点是一个NP-hard问题,因此选择用LNS(Large Neighborhood Search)寻找最优解。在此基础上,我们研究了多种重要的技术,包括字符串的近似连接算法等,为实现高效的查询处理提供支撑。在原型系统研制方面,我们开发了“方圆”系统,这是一个基于云计算平台的RDF数据管理系统。方圆系统作为异构系统的数据集成工具,被应用于国家863计划项目“开放环境下海量web数据提取集成分析和管理系统平台与应用”中,能支持超过100亿条RDF数据的管理任务。经过4年的努力,课题组完成了该课题的技术指标申请专利4项,发表论文14篇(包括2篇已经接受尚没有发表的论文),其中,SCI期刊论文3篇(其中CCF A类期刊2篇)CCF A类会议论文 2篇,CCF B类会议论文5篇,CCF C类会议论文 1篇,国内一级学报论文2篇。申请专利4项,其中一项已经获得授权。


成果综合统计
成果类型
数量
  • 期刊论文
  • 会议论文
  • 专利
  • 获奖
  • 著作
  • 5
  • 7
  • 0
  • 0
  • 0
相关项目
期刊论文 172 会议论文 96 获奖 10 专利 3 著作 7
杜小勇的项目
期刊论文 37 会议论文 37 著作 1