近年来,对数据流管理和应用的研究一直是一个热点,分布式数据流处理是其中一个重要的分支。非同质分布式数据流(HeDS)是数据流应用发展到一定阶段的产物。本课题的研究关注HeDS的结构特性、查询特性和负载特性。主要研究内容是HeDS的skyline连续查询的性能评估模型;HeDS负载评估和降载策略;基于通用GPU计算体系结构的若干核心处理算法等。通过对本课题的研究,希望解决HeDS查询处理中的若干关键问题,如流量匹配、查询的代数表示、DSQ模型及查询性能评估、通用GPU体系结构特性对算法构造的影响等,并得到一个高性能HeDS处理系统的原型。本课题的主要特色是使用代数方法表示复杂的数据流查询;使用查询分解模型进行性能评估;同时使用主动和被动两种策略来保障查询的效率和质量。本课题的研究成果可应用于复杂条件下的高密度数据流处理,如网络数据分析、物联网应用等。
Distributed Data Stream;Uncertain Data;Skyline Query;General Purpose GPU Computing;
分布式数据流Skyline查询问题被普遍应用于传感器网络、物联网、金融数据实时分析和电子商务等重要的应用领域。本课题主要研究了不确定分布式数据流上的高效子空间skyline查询。本课题首先通过建立查询性能的计算模型,分析并找出了影响分布式数据流的skyline查询性能的关键因素是对并发查询事务的加锁调度机制。本课题的第二项研究内容在此基础上展开。在已经被广泛使用的多核计算环境下,通过分析并发查询事务对临界资源需求的实时快照,建立了一种针对并发查询事务的无锁调度机制,从而极大地提高了查询的性能。本课题的第三项重点内容是对分布式数据流的skyline查询算法。本课题完成了skyline系列查询中具有较高难度的分布式不确定数据流的子空间skyline实时查询。该项研究内容在完成精确查询的前提下,进一步提出了性能更优的近似查询方法和使用通用GPU的查询方法,从而使得具有较高难度的子空间上的skyline实时查询获得了令人满意的性能。最新研究成果表面,skyline查询已经不是一种单纯的查询方法,而是一类查询方法的统称。最新的skyline查询方面的研究主要集中于针对数据形态的多样性,如不确定数据、分布式数据、数据流、子空间查询等等。本课题的挑战在于综合了上述四种复杂情况。