系统性能(单位时间内完成的任务数或每秒处理的查询量)一直是传统数据管理系统关注的焦点。能量有效性(每单位能量完成的任务数或每焦耳执行的查询量)正在成为减少社会信息化代价重要指标。能量在金钱和环境方面的巨大代价,向海量数据管理领域提出了一个新的挑战问题。为此,本课题拟在已有的海量数据管理研究基础上,以最小化时间复杂性、空间复杂性以及能量复杂性为目标,研究低能耗海量数据管理基础理论和关键技术,包括支持海量数据管理计算系统的能源消耗机理、海量数据管理问题的能耗复杂性理论、低能耗数据存储和存取方法设计与分析原理以及低能耗算法设计与分析的原理等,并研制低能耗数据管理原型系统,验证课题组所提出方法的正确性和有效性。
massive data;cluster-based parallel computing;energy efficient;data placement;query processing
系统性能(单位时间内完成的任务数或每秒处理的查询量)一直是传统数据管理系统关注的焦点。能量有效性(每单位能量完成的任务数或每焦耳执行的查询量)正在成为减少社会信息化代价重要指标。能量管理向海量数据管理领域提出了一个新的挑战问题。为此,本课题研究了低能耗海量数据管理基础理论和关键技术,包括支持海量数据管理计算系统的能源消耗机理、海量数据管理问题的能耗复杂性理论、低能耗数据存储和存取方法以及低能耗查询处理算法等,并研制低能耗数据管理原型系统,验证课题组所提出方法的正确性和有效性。 本项目取得的研究成果如下 1. 为了建立海量数据管理问题的能量消耗复杂性理论、正确有效的分析和设计海量数据的存储和存取方法以及求解各类海量数据管理问题的低能耗算法,我们首先探索了支持海量数据管理的计算系统的能量消耗机理。确定了计算系统各类资源的能量消耗因素;建立了相应能量消耗模型以及综合能量消耗模型, 2. 在大规模并行处理框架的greenplum数据库机群环境下,首先分析了集群与单机的差异,然后实验测试了数据库系统中主要能耗硬件在不同工作负载下的能耗表现情况。针对数据库查询中的不同操作,得到不同查询操作与数据规模之间的联系,由此,建立硬件能耗、查询操作以及数据集合大小之间的关系,建立能耗复杂性估算模型,并用实验验证了估算模型的正确性。 3. 在机群环境下数据备份、放置与节点调度方面,课题组研究并提出了数据备份个数固定的数据分布策略、基于访问频率的数据备份策略、基于访问频率的数据分布与放置策略、数据维护策略、批处理调度与Online调度以及支持空间关键字近似查询的外存索引。 4. 在低能耗数据查询与分析算法方面,课题组研究并提出了能量有效的分布式聚集操作、查询计划功率模型及基于功耗的查询优化、基于时间和能耗的连接顺序优化策略、基于虚拟化部署的高能效数据划分与查询处理、以及一系列海量数据查询算法等。 课题组发表学术论文21篇,其中在国际顶级学术会议VLDB发表1篇,在IEEE Transactions on Knowledge and Data Engineering、WWW J.等国际顶级期刊发表3篇,在DASFAA、Information Science等CCF B类期刊和会议发表论文4篇,其它SCI论文3篇,计算机研究与发展等国内一级刊物发表2篇,其它论文8篇。