语义Web作为数据之网不断汇集并组织Web信息,相关应用因此面临着对语义Web所含大规模RDF数据高效访问的挑战。利用分布式处理技术提高性能是一种解决之道,其核心是RDF数据的放置策略、分布式查询处理与优化。已有工作尚未系统研究RDF数据放置策略的分类与特点,及其对分布式查询处理与优化的影响。本课题将首先分析RDF数据上各类数据放置策略及其影响。然后拟通过混合水平与垂直划分的方法实现分布式查询负载平衡与通信开销降低,并充分利用查询操作内与操作间两种并行性实现查询执行性能的提高。具体拟提出基于RDF模式子图频繁度来混合划分RDF图的数据放置策略;提出基于RDF图索引匹配的查询分解与分布式查询处理方法;相应提出基于代价分析的查询优化方法。研究成果将应用于一个已有的语义Web搜索引擎,改进存储与检索效率,验证方法的可行性和有效性。课题开展对推动语义Web、数据管理和分布式技术的发展具有重要意义。
semantic Web;RDF;data management;distributed;parallel
语义Web作为数据之网不断汇集并组织Web信息,相关应用因此面临着对语义Web所含大规模RDF数据高效访问的挑战。利用分布式处理技术提高性能是一种解决之道,其核心是RDF数据的放置策略、分布式查询处理与优化。已有工作尚未系统研究RDF数据放置策略的分类与特点,及其对分布式查询处理与优化的影响。本课题首先分析了RDF数据上各类数据放置策略及其影响。然后提出了一种新的基于频繁RDF图模式划分的并行RDF数据处理方法;针对RDF数据的结构化查询处理,提出了一种基于Prüfer序列化索引的查询处理方法和一种RDF缓存策略;在已有的分布式语义Web推理的基础上,提出了一种基于MapReduce框架的语义Web推理解释服务;针对查询优化中普遍存在的组合优化问题,研究了使用基于MapReduce的蚁群优化技术求解组合优化问题的方法;最后在研究成果的基础上构建了一个利用语义Web搜索引擎提供支持的语义互联在线社区系统用以检验研究成果的实际效果。项目整体进展顺利,按照计划完成,部分内容稍作调整。在论文发表、学生培养和国内外学术交流方面都取得了较好的成果。随着相关科研成果的转化,将进一步促进语义Web技术的快速发展。