近年来,随着新型数据采集方式的出现和应用需求的增加,不确定性数据普遍存在于经济、军事、金融、交通等应用领域,数据的不确定性在这些应用中起着至关重要的作用,然而传统的数据管理技术无法对不确定性数据进行有效的管理。精简的数据模型和高效的查询处理技术是管理不确定性数据的关键。为此,本课题从数据库系统角度,研究基于不确定性数据的查询处理关键理论和技术,包括精简的数据模型定义、高效的代数操作算法、各种类型的查询如top-k查询、预测查询、范围查询、skyline查询的查询语义、查询优化和查询处理技术,并研制基于不确定性数据的查询处理系统原型,验证课题所提出方法的正确性和有效性。
uncertain data;possible world model;Top-k query;prediction query;skyline query
课题组完成了项目计划书中的主要研究任务,并取得了预期的研究成果。 课题组重点研究了不确定性数据以及不确定性数据流查询处理和挖掘的理论、技术与方法,包括不确定时空数据预测近邻算法的研究、不确定数据组反k最近邻算法的研究、分布式多维概率Top-k查询处理算法的研究、基于KL距离的不确定性数据聚类算法的研究、基于马尔科夫模型的不确定轨迹组移动模式挖掘算法的研究、分布式不确定数据流的top-k聚集查询算法的研究、不确定数据流的概率skyline查询算法的研究、不确定性数据流的聚类算法的研究、社会网络的不确定性特征提取算法的研究、传感器网络中近似计数算法的研究以及数据流中不同值个数估计算法的研究。 课题组取得了一系列不确定数据查询处理和数据挖掘的基础研究成果和应用研究成果,共发表学术论文13篇,其中国际学术期刊、学术会议,以及国家一级学报论文6篇。课题组成员参加计算机数据库领域重要学术会议3人次,到美国佐治亚州立大学计算机学院进行访学1年,学术交流2人次。