云计算平台由于其高度的可伸缩性和容错能力,引起了学术界和产业界的极大关注。云计算平台下的海量数据管理问题是其研究热点之一。本课题以互联网上普遍存在并正以指数速度增长的海量RDF数据为研究对象,探索如何在云计算平台下有效地管理RDF数据的基础理论和关键技术,包括RDF数据的聚合与演化规律,以及在云计算平台上如何高效地组织和管理海量RDF数据。围绕这两个科学问题,本课题将在以下五个方面开展研究RDF数据的聚合与演化规律的研究;RDF数据模式的自动抽取算法;基于云平台的RDF数据组织与自适应存储方法;基于云计算平台的SPAQRL查询处理与优化;原型系统研制和应用示范。通过基础理论、核心技术和系统研制的研究,深化对互联网上海量RDF数据性质的理解,掌握云平台上海量RDF数据管理的关键技术,为研制支持语义网应用的海量数据管理系统奠定坚实的基础。
RDF data;SPARQL query;Cloud computing;Data management;Query optimization
本课题以互联网上以指数速度增长的海量RDF数据为研究对象,探索如何在云计算平台下有效地管理和查询RDF数据的关键技术问题。基本的科学问题有两个1) 探索海量RDF数据模式发现和演化的理论基础及其聚类和模式抽取的高效算法。(RDF数据聚类问题)2) 提出利用云平台提高海量RDF数据的自适应存储、并提高海量RDF数据SPARQL查询的效率的关键技术。(查询效率问题)课题主要研究内容与成果如下在数据聚类和模式抽取方面,我们通过对RDF数据的分析,利用相同主语和谓词自动识别RDF数据的模式,并参考Dirichlet聚类算法实现对RDF数据模式的聚类,将模式相似的RDF实体聚集在一起,为之后的RDF数据组织和存储建立基础。在数据分布和查询处理方面,我们实现了一个以Map/Reduce做计算、rdf查询引擎做存储的混合架构系统,提出了一种基于Query Pattern的数据划分方法,尽可能减少查询之间的跨节点连接。证明了将划分的小集合放置到各个节点是一个NP-hard问题,因此选择用LNS(Large Neighborhood Search)寻找最优解。在此基础上,我们研究了多种重要的技术,包括字符串的近似连接算法等,为实现高效的查询处理提供支撑。在原型系统研制方面,我们开发了“方圆”系统,这是一个基于云计算平台的RDF数据管理系统。方圆系统作为异构系统的数据集成工具,被应用于国家863计划项目“开放环境下海量web数据提取集成分析和管理系统平台与应用”中,能支持超过100亿条RDF数据的管理任务。经过4年的努力,课题组完成了该课题的技术指标申请专利4项,发表论文14篇(包括2篇已经接受尚没有发表的论文),其中,SCI期刊论文3篇(其中CCF A类期刊2篇)CCF A类会议论文 2篇,CCF B类会议论文5篇,CCF C类会议论文 1篇,国内一级学报论文2篇。申请专利4项,其中一项已经获得授权。