位置:成果数据库 > 期刊 > 期刊详情页
Web大数据环境下的相似重复数据清理
  • ISSN号:1000-7024
  • 期刊名称:《计算机工程与设计》
  • 时间:0
  • 分类:TP391[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]四川师范大学计算机学院,四川成都610101, [2]中国科学院计算技术研究所,北京100190
  • 相关基金:国家自然科学基金项目(61373162); 四川省科技支撑基金项目(2014GZ007); 可视化计算与虚拟现实四川省重点实验室基金项目(KJ201402)
中文摘要:

为对Web大数据环境下的相似重复冗余数据进行清理,降低数据存储与管理的时间和成本,提出Web大数据相似重复数据清理方法。对Web数据进行预处理,提出相似哈希的实现算法计算各数据信息的相似度,对于满足特定阈值的相似数据信息,保留其中一个及其副本,其余数据信息保存该数据信息的地址。使用该方法在Hadoop平台上对多个网站的Web数据进行实验,实验结果表明,该方法具有良好的精确性及数据缩减效果。

英文摘要:

To clean the approximately duplicate data based on Web big data,reduce the time and cost of data storage and management.A cleaning method for approximately duplicate cross-source data based on Web big data,called ADDCWBD,was proposed.Web data were preprocessed.The realization algorithm of SimHash was presented to compute the similarity metrics of data item.For data which satisfied the threshold,one of them and its copy were saved,the others saved its address.The method was applied to multiple portal sites on Hadoop platform.The results of experiments verified the accuracy and showed good data reduction rate.

同期刊论文项目
同项目期刊论文
期刊信息
  • 《计算机工程与设计》
  • 北大核心期刊(2011版)
  • 主管单位:中国航天科工集团
  • 主办单位:中国航天科工集团二院706所
  • 主编:汤铭瑞
  • 地址:北京142信箱37分箱
  • 邮编:100854
  • 邮箱:ced@china-ced.com
  • 电话:010-68389884
  • 国际标准刊号:ISSN:1000-7024
  • 国内统一刊号:ISSN:11-1775/TP
  • 邮发代号:82-425
  • 获奖情况:
  • 中国科学引文数据库来源期刊,中国学术期刊综合评价数据库来源期刊,中国科技论文统计与分析用期刊
  • 国内外数据库收录:
  • 波兰哥白尼索引,美国剑桥科学文摘,英国科学文摘数据库,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版)
  • 被引量:45616