随着计算机应用技术的快速发展,传感器网络、Web服务和RFID技术得到了广泛应用,在这些先进应用中不确定数据无处不在,无法运用确定性数据管理技术有效处理。现有的不确定数据管理技术主要集中于概率关系数据管理技术方面,而面向更复杂的不确定数据类型的数据管理技术则仍然远未成熟。本项目将重点围绕半结构化数据(图和XML)和流数据(包括传感器网络和RFID)开展不确定数据管理理论与关键技术的研究工作,力争在不确定数据的数据建模、存储与索引、查询处理和世系分析等理论、方法与技术方面取得原创性的突破成果,并且通过构建2个原型系统来验证这些研究成果的有效性,预期在国内外重要学术期刊和学术会议上发表高水平学术论文40余篇。相关研究成果将为新兴应用的数据管理提供新的解决方案,具有重要的理论意义与实践价值。
uncertain data;semi-structure data;stream data;;
本项目的执行时间是2010.1——2013.12,这期间项目主要从不确定半结构化数据和流数据两方面展开了研究工作,现总结如下 1.在不确定半结构化数据(图和XML)管理方面,提出了可扩展的概率独立数据模型和概率关联数据模型(Markov网络和Bayesian网络);提出了基于概率矩阵和概率邻接链表的存储模型,可高度压缩数据并充分表达模型语义;提出了基于概率路径树索引、基于频繁子图的索引、基于Junction Tree的索引来高效地处理不确定图数据的可达查询、不确定图数据的包含查询和不确定XML数据的关键字查询;提出了基于动态规划的近似算法和基于蒙特卡罗的采样算法高效地解决了基于概率语义和期望语义的大规模不确定图挖据问题。其中关于不确定图数据的查询处理与挖掘的一系列算法是本课题成员在国际上率先提出来的,奠定了我国在不确定图数据管理研究领域的国际领先地位。 2.在不确定流数据(包括传感器网络和RFID)管理方面,主要研究了不确定传感数据的查询处理与监控算法和不确定RFID数据管理的框架。针对“不确定传感数据的查询处理”,提出了无线传感器网络 (ε, δ) –近似Top-k查询处理算法、无线传感器网络中ε-近似区域聚集算法、传感器网络中不确定数据反向轮廓查询处理算法、针对传感器网络不确定数据的脏事件清洗技术等。针对“不确定RFID数据管理的框架”,提出了基于监控对象动态聚簇的RFID数据清洗、基于概率轨迹模型的RFID轨迹填补、截止期敏感的RFID复杂事件处理技术、半限制空间内的可能性k-近邻查询技术、乱序流上基于置信度的即时事件处理技术等。 3. 本项目实施过程中,项目组已在VLDB Journal、IEEE TKDE、IEEE TPDS等国际权威期和本领域重要的国际会议(SIGMOD、VLDB、ICDE等)上发表(含已录用)论文98篇,其中SCI期刊发表论文36篇。培养毕业研究生28名,申请公开国家发明专利12项。项目组通过积极参与相关领域主流国际会议、邀请国外专家访问等方式,与国外同行进行了深入的学术交流与合作。