随着数据采集技术的不断深化和进步,不确定性数据得到广泛的重视,促使研究人员提出在其上进行以Skyline查询为核心的多标准决策需求。在这一应用背景下,本项目拟在数据库和决策支持的交叉领域范畴内,研究和设计一套支持可能世界实例语义、能够有效处理用户任意决策空间需求,并且能与不确定数据库产品优化器和处理器无缝集成的Skyline查询处理技术及其实现算法。本项目的研究重点将聚焦于不确定数据上Skyline查询的若干关键问题,主要包括相互密切联系的四个内容(1) 面向不确定数据的Skyline查询等价重写;(2) 概率关系部件上的多Skyline查询优化;(3) 概率关系部件上Skyline查询执行计划的生成;(4) 面向不确定数据的Skyline查询物理实施方案。项目具有重要的理论和实践意义。
uncertain data;skyline query;equivalent rewriting;multiple query optimization;execution plan
面向不确定数据的skyline查询技术是目前数据库查询优化和企业信息化的一个极具理论和应用价值的新课题。本项目聚焦不确定数据上skyline查询的四个关键内容来展开研究。(1)面向不确定数据的skyline查询等价重写将skyline 计算作为一个特殊的关系操作符,并给出它与传统关系操作符间执行顺序变换的等价规则,从而,基于这些等价变换规则和附加条件,通过改变skyline 操作符与传统关系操作符之间的执行顺序来有效提高重写的效率。同时,给出充分的理论证明以及代价模型来论证所给等价变换规则的正确性和有效性。(2)概率关系部件上的多skyline查询优化通过两个层次进行多查询优化处理,首先提出一种适合单处理机的优化算法;然后,为了使优化方法能够适用于现实的应用,研究了多处理机的并行优化算法。(3)概率关系部件上skyline查询执行计划的生成针对skyline快照集合,采用多维数据对象的层次联合代理以及边际贡献的概念,使得多个skyline查询在skyline快照间的分配达到最佳状态,从而从逻辑上提高概率关系部件上skyline查询的执行效率。(4)面向不确定数据的skyline查询物理实施方案基于网格索引,提出一种提高skyline查询物理实施效率的方法,该方法通过格之间的支配关系来缩减对象间的比较次数,从而有效降低skyline计算的时间开销。此外,我们在不同的应用环境对不确定数据上的skyline查询进行了扩展,包括数据流、软件即服务和分布式网络环境等。本项目已发表相关论文13篇,其中SCI/EI检索12篇,申请发明专利2项,作为第三完成人获得1项教育部科技进步二等奖。