海量非结构化数据的管理是新型数据密集型应用中碰到的重要问题,图模型是对非结构数据进行建模的一种重要工具。本项目旨在针对Web数据管理、科学数据管理等应用对于海量非结构化数据管理的需求,系统研究基于图模型的非结构化数据查询语言的形式化定义和语义基础、灵活/可扩展的查询语言设计、针对集群环境的查询计划表示与代价模型,以及高效的适应性分布式查询优化算法。项目将针对应用中查询需求多样、数据量大、应用环境为大规模集群的特点,重点研究基于图模型的查询语言的形式化描述、环境相关的查询计划表示和代价模型,集群环境中无集中控制的分布式代价估计、代价维护和适应性查询处理和优化技术,并通过具有实际应用背景的原型系统验证所研究方法的有效性。项目的研究工作基于项目组成员多年来对于分布式和P2P系统中的查询处理、Web数据管理、集群环境中的数据存储与索引研究工作,是现有研究的自然延续。项目目标明确,可行性较强。
Unstructured data;query language;query optimization;graph model;query processing
海量非结构化数据的管理是新型数据密集型应用中碰到的重要问题,图模型是对非结构数据进行建模的一种重要工具。本项目针对 Web 数据管理、科学数据管理等应用对于海量非结构化数据管理的需求,系统研究基于图模型的非结构化数据查询语言的形式化定义和语义基础、灵活/可扩展的查询语言设计、针对集群环境的查询计划表示与代价模型,以及高效的适应性分布式查询优化算法。项目针对应用中查询需求多样、数据量大、应用环境为大规模集群的特点,重点研究基于图模型的查询语言的形式化描述、环境相关的查询计划表示和执行,集群环境中的分布式查询处理和优化技术,并通过具有实际应用背景的原型系统验证所研究方法的有效性。 经过四年的研发,项目课题按照原计划进行。项目以社交媒体这一典型的大规模图数据为切入点,形式化地定义了图数据模型下社交流(social stream)查询语言SSQL;结合社交网络应用的图数据查询需求,制定了社交网络分析型查询基准评测,以公开、可测量的形式,描述了图模型数据查询需求;在基准评测中,对图模式匹配、时序查询、热点查询等典型查询模式进行了定义,同时定义了这些典型查询模式的查询计划表示方法;在制定基准评测时,对影响图模型数据的统计特征,特别是其中显著影响查询性能的统计特征进行了定义和分析,同时研究了分布式环境下统计特征计算和估计方法;项目着重研究了社交数据流这一典型图模型数据的查询处理和优化技术,包括社交数据流统计值查询处理、图结构数据的压缩以及基于压缩图的查询处理技术、社交数据流的自适应取样等;项目组收集了海量社交媒体数据,基于这些数据,利用课题所研发的技术,课题组设计和开发了网上集群行为资源库,展示和验证了课题所研发的图模型数据查询处理和优化技术的有效性。 项目组成员在重要学术会议和重要学术期刊上发表18篇高质量的学术论文(包括15篇研究论文和3篇演示论文),申请发明专利6项,申请并获得软件著作权6项,获得教育部科技进步二等奖1项(第5获奖人),培养博士5人(2人毕业),硕士5人(毕业5人)。