东篱科研大数据发现系统（DRDS）

欢迎您！东篱公司退出

申报数据库
1. 申报指南
立项数据库
成果数据库
1. 期刊论文
2. 会议论文
3. 著作
4. 专利
项目获奖数据库

位置：成果数据库 > 期刊 > 期刊详情页

基于Map-Reduce的大数据缺失值填充算法

ISSN号：1000-1239
期刊名称：《计算机研究与发展》
时间：0
分类：TP311.13[自动化与计算机技术—计算机软件与理论;自动化与计算机技术—计算机科学与技术]
作者机构：[1]哈尔滨工业大学计算机科学与技术学院, [2]哈尔滨工业大学网络与信息中心
相关基金：国家“九七三”重点基础研究发展计划基金项目(2012CB316200);国家自然科学基金项目(61003046,61111130189);国家“八六三”高技术研究发展计划基金项目(2012AA011004);国家博士后基金项目(20090450126,201003447);高等学校博士点专项科研基金项目(20102302120054);哈尔滨工业大学优秀青年教师培养计划基金项目(HITQNJS.2009.052)

作者：金连[1], 王宏志[1], 黄沈滨[2], 高宏[1]

关键词：缺失值填充, 概率推理, MAP-REDUCE

中文摘要：

缺失值大量存在于现实数据库中,这不仅严重影响了信息查询质量,还会扭曲数据挖掘与数据分析结论,进而误导决策.解决这一问题的最佳方法是预先填充这些丢失的数据.给出了一种基于概率推理的填充分类属性的算法.推理过程是在一个基于属性相关性而建立起来的贝叶斯网中完成.为实现大数据处理的并行化,在Map-Reduce框架中给出这两个算法.实验部分分别验证了贝叶斯网构建方法和概率推理对分类数据处理的有效性,以及算法在hadoop中运行的并行化程度.

同期刊论文项目

复杂数据上实体识别关键技术的研究

期刊论文 24 会议论文 15 著作 1

数据质量管理中实体识别关键技术的研究

期刊论文 36 会议论文 18

　海量信息可用性基础理论与关键技术研究

期刊论文 58

同项目期刊论文

劣质数据库上阈值相似连接结果大小估计

实体数据库中多相似连接顺序选择策略

An efficient entity resolution method for large relations

基于 probase 的互联网商品信息分类与推荐系统

On the Complexity of View Update Analysis and Its Application to Annotation Propagation

A Uniform Dependency Language for Improving Data Quality

Performance Guarantees for Distributed Reachability Queries

基于实体描述属性技术的XML重复对象检测方法

XML数据流上Top-K关键字查询处理

一种非清洁数据库的数据模型

复杂数据上的实体识别技术研究

Towards certain fixes with editing rules and master data

Efficient community detection with additive constrains on large networks

基于树结构索引的带权值字符串的 Top-k 查询算法

Polymorphic queries for P2P systems

基于Map-Reduce的大数据实体识别算法

基于距离度量的实体识别算法

PEIF:基于并行机群的大数据实体识别算法

基于众包的电子商务数据实体分类系统

社交网络中基于分类属性的好友推荐

标签劣质的XML数据上的查询处理

MapReduce框架下基于字符串波形的实体识别方法

在线RFID多复杂事件查询处理技术

劣质数据库上阈值相似连接结果大小估计

基于实体描述属性技术的XML重复对象检测方法

XML数据流上Top-K关键字查询处理

一种非清洁数据库的数据模型

复杂数据上的实体识别技术研究

基于压缩直方图的劣质数据库上相似连接结果大小估计

Graph-based reference table construction to facilitate entity matching

Efficient subgraph matching on billion node graphs

RM树：一种支持字符串相似性操作的索引

多维代价图模型上最优路径查询问题的研究

时间依赖代价函数下的最优路径查询问题研究

基于实体的相似性连接算法

基于Map-Reduce的大数据实体识别算法

不一致数据上查询结果的一致性估计

基于键规则的XML实体抽取方法

基于标签权重评分的推荐模型及算法研究

基于子树匹配的相似xml连接方法的研究

基于距离度量的实体识别算法

PEIF:基于并行机群的大数据实体识别算法

基于众包的电子商务数据实体分类系统

一种扩展条件函数依赖的发现算法

社交网络中基于分类属性的好友推荐

无线传感器网络中基于双阈值的分布式监测算法

数据中心网络中的无线通信技术

劣质数据库上阈值相似连接结果大小估计

异构信息网上的可达性查询

基于图压缩的k可达查询处理

数据时效性修复问题的求解算法

不确定图上期望最短距离的计算

无线传感器网络中能量高效的Top-k监测算法

一种基站可移动传感器网络再编程协议

基于实体描述属性技术的XML重复对象检测方法

XML数据流上Top-K关键字查询处理

一种非清洁数据库的数据模型

无线传感器网络具有跟踪质量保证的节点选择算法

无线传感器网络中可容错的事件监测算法

电子商务商品归一化方法研究

复杂数据上的实体识别技术研究

基于压缩直方图的劣质数据库上相似连接结果大小估计

基于时空一体化的海洋大数据快速展示平台

一种基于空间相关性的海洋环境监测数据优化抽样方法

含排他性选择规则的主动规则集的汇流性判定方法

RM树：一种支持字符串相似性操作的索引

无线传感器网络中最小化通信开销的近似监测算法

多维代价图模型上最优路径查询问题的研究

时间依赖代价函数下的最优路径查询问题研究

基于实体的相似性连接算法

数据质量多种性质的关联关系研究

基于Map-Reduce的大数据实体识别算法

ArtiMate：一种以Artifact为中心的多粒度协作流程建模方法

基于关联数据的一致性和时效性清洗方法

基于图压缩的最大Steiner连通k核查询处理？

无线传感器网络在桥梁健康监测中的应用

无线传感器网络中移动协助的数据收集策略

不一致数据上查询结果的一致性估计

基于键规则的XML实体抽取方法

基于标签权重评分的推荐模型及算法研究

基于MapReduce的相似自连接新方法：过滤和内切圆算法

位置敏感的社交网中最小种集选取算法研究

基于任务合并的并行大数据清洗过程优化

无线传感器网络数据收集问题综述

无线传感器网络关键技术研究

Protect You More Than Blank： Anti-Learning Sensitive User Information in the Social Networks

大数据可用性的研究进展

基于x-tuple的概率阈值top-k查询算法

大数据质量管理：问题与研究进展

高效的实体匹配结果消解算法

Accurate Indoor Navigation System Using Human-Item Spatial Relation

实体识别问题的相关研究

数据时效性判定：关键理论和技术

PEIF:基于并行机群的大数据实体识别算法

基于众包的电子商务数据实体分类系统

Study of tide prediction method influenced by nonperiodic factors based on support vector machines

海洋信息管理系统的设计与实现

海洋大数据分级存储中迁移模型的研究

一种扩展条件函数依赖的发现算法

社交网络中基于分类属性的好友推荐

概率数据库中近似函数依赖挖掘算法

TSEA：极地科考在线系统中海量走航数据的剔除算法

期刊信息

《计算机研究与发展》
中国科技核心期刊

主管单位:中国科学院
主办单位:中国科学院计算技术研究所
主编：徐志伟
地址：北京市科学院南路6号中科院计算所
邮编：100190
邮箱：crad@ict.ac.cn
电话：010-62620696 62600350

国际标准刊号：ISSN：1000-1239
国内统一刊号：ISSN：11-1777/TP
邮发代号:2-654

获奖情况:
2001-2007百种中国杰出学术期刊，2008中国精品科...,中国期刊方阵“双效”期刊

国内外数据库收录:
俄罗斯文摘杂志,荷兰文摘与引文数据库,美国工程索引,日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊（2004版）,中国北大核心期刊（2008版）,中国北大核心期刊（2011版）,中国北大核心期刊（2014版）,中国北大核心期刊（2000版）

被引量:40349