在数据密集型计算环境下,不确定性数据已广泛地出现于以数据集成系统为代表的大量应用中。有效地清除不确定性数据是提高应用系统服务质量的客观要求。过往关于不确定性数据清洗的研究多侧重于对清洗对象的选择,依赖领域专家或已有领域知识来得到准确数据。本课题旨在利用用户对查询结果的反馈自动清除系统中的不确定性数据。该方法可避免领域专家繁重的人工劳动,满足海量不确定性数据管理的需求。同时,用户反馈多的数据对象必然具备高的使用价值,因此,我们的方法还可优化对清洗对象的选择,最大限度地利用系统资源提供尽可能好的服务。本课题基于可能世界模型,研究通过索引(如PW Tree)快速从用户反馈定位到源数据;研究通过数据挖掘的手段从大量反馈中自动归纳可能的通用知识规则,以清除尚未被反馈涉及的错误数据;研究通过更新参数的方法快速更新数据库。项目的研究成果将对大规模数据管理系统的研制提供有力的支持。
uncertain data;user feedback;probabilistic inference;;
不确定性数据的处理是当前学术界和产业界的共同焦点。在很多实际应用系统中,不确定性数据规模与日俱增,已影响到了用户体验。为了提升服务质量,我们迫切需要高效清洗不确定性数据的技术。本课题提出利用用户的反馈来清洗不确定性数据的方法,与传统的数据清洗方法相比,具有精度高,成本低,知识资源丰富等优点。此外,本课题还提出了将用户的反馈自动转换为知识约束的方法,避免了逐一扫描所有的可能世界,极大地提高了效率。本课题还进一步提出通过缓存中间结果来进一步提高反馈处理效率的技术,该技术不但可以加速不确定性数据清洗过程,还可应用于概率推断和概率查询等其他不确定性数据的操作。上述方法的有效性和性能已经在大规模真实数据和人工数据集上进行了检验。在此基础上,还开发了原型系统。课题部分研究成果已经在高水平的国际会议上发表,并已申请了国家专利。在国家自然科学基金的支持下,我们顺利了完成了课题的工作,下一步计划展开更为深入的研究,例如处理不精确的用户反馈,以及通过设计用户界面来获取更有效的反馈知识等。