不一致数据内含异常和矛盾,其上的查询结果也可能不一致,而不一致数据的纠正和剔除往往导致信息失真和信息丢失。本课题研究不一致关系数据的识别及其在查询结果中的推演和排序,在不丢失信息,不修改数据的前提下,帮用户在属性级别区分一致和不一致数据。主要研究内容有1)在综合约束范围内,定义一种全新的不一致数据模型- - 带标记的关系数据模型,寻找不一致标记在各类查询中的推理规则集,并发展该模型上的查询代数,使得不一致标记能在查询估值中正确传承;2)研究带标记查询计算的实现,寻找不一致数据的自动检测和标识算法,给出各类用户查询到带标记的查询之间的重写算法;3)将用户对不一致数据的取舍抽象为二次标记,提出基于二次标记的不一致查询结果排序和修复算法,并针对两类标记的附属性、稀疏性和高维度性特点,给出其存储和索引方法。本课题研究成果在数据交换、数据整合、数据抽取和传感网络等多类应用中均有实际应用价值。
英文主题词inconsistent data;data quality;integrity constraints;consistent query answer;annotation