位置:成果数据库 > 期刊 > 期刊详情页
基于数据质量规则的缺失结果解释约减
  • ISSN号:1000-1239
  • 期刊名称:计算机研究与发展(第30届中国数据库学术会议, NDBC 2013)
  • 时间:2013
  • 页码:221-229
  • 分类:TP311.13[自动化与计算机技术—计算机软件与理论;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]清华大学软件学院, [2]清华信息科学与技术国家实验室(筹), [3]信息系统安全教育部重点实验室(清华大学)
  • 相关基金:国家自然科学基金项目(61202008);国家“八六三”高技术研究发展计划基金项目(2012AA040911)
  • 相关项目:基于距离的数据约束规则研究
中文摘要:

由于数据缺失等原因,用户在查询结果中可能没有得到预期的答案.现有的方法通过枚举可能的缺失记录来解释"为什么没有why-not"的问题.然而,枚举得到的解释数量庞大,用户无法逐一浏览确认缺失数据.实际上,这些可能的解释中有许多是不合理的,如何约减解释数量存在挑战.根据真实数据试验,利用数据中存在的唯一性约束来进行约减,生成的解释数量仍有几十万个.研究利用数据质量规则(如函数依赖)来高效约减缺失结果的解释.首先,提出一种基于函数依赖的解释约减算法FDR(functional dependencies-based reduction).其次,为了辅助用户浏览生成的解释,进一步研究利用近似函数依赖对解释进行排序.真实数据实验表明,FDR方法能够比现有的方法减少2~5个数量级的解释(从几十万个减少至几千个甚至几十个);利用近似函数依赖排序的Top-1解释精确率达到90%以上.

同期刊论文项目
期刊论文 10 会议论文 6
同项目期刊论文
期刊信息
  • 《计算机研究与发展》
  • 中国科技核心期刊
  • 主管单位:中国科学院
  • 主办单位:中国科学院计算技术研究所
  • 主编:徐志伟
  • 地址:北京市科学院南路6号中科院计算所
  • 邮编:100190
  • 邮箱:crad@ict.ac.cn
  • 电话:010-62620696 62600350
  • 国际标准刊号:ISSN:1000-1239
  • 国内统一刊号:ISSN:11-1777/TP
  • 邮发代号:2-654
  • 获奖情况:
  • 2001-2007百种中国杰出学术期刊,2008中国精品科...,中国期刊方阵“双效”期刊
  • 国内外数据库收录:
  • 俄罗斯文摘杂志,荷兰文摘与引文数据库,美国工程索引,日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版),中国北大核心期刊(2000版)
  • 被引量:40349