东篱科研大数据发现系统（DRDS）

位置：成果数据库 > 期刊 > 期刊详情页

基于消息传递机制的MapReduce图算法研究

ISSN号：0254-4164
期刊名称：计算机学报
时间：2011.10.15
页码：1768-1784
分类：TP311[自动化与计算机技术—计算机软件与理论;自动化与计算机技术—计算机科学与技术]
作者机构：[1]西北工业大学计算机学院,西安710072, [2]新加坡国立大学计算机学院,新加坡119077
相关基金：国家自然科学基金（61033007 60970070）; 国家“八六三”高技术研究发展计划重大项目（2009AA01A404）; NSFC-JST重大国际（地区）合作项目（60720106001）资助
相关项目：数据密集型计算环境下的数据管理方法与技术

关键词：云计算, MapReduce, 大同步模型, 消息传递, 图算法, PageRank, cloud computing, MapReduce, BSP model, message passing, graph algorithms, PageRank

中文摘要：

单机运行环境难以满足基于海量数据的大图算法对时空开销的需求,如何设计高效的面向云计算环境的分布式大图算法越来越受到人们的关注,MapReduce作为云计算的核心计算模式受限于易并行（EP）计算模型的制约不易表达图算法.文中突破了MapReduce基于易并行计算的假设,增强了MapReduce既有的编程规范,新的大同步（BSP）计算模型既能保证兼容旧的MapReduce作业可以无改动的运行,同时引入消息传递机制允许变化的状态数据在并行任务的超级步间进行交互.系统提供高度灵活的消息自定义接口,针对不同应用需求设计了轻量级和重量级两种自适应的消息传递机制,更高效地支持有数据交互需求的包含迭代处理的一大类图算法.在真实大规模图数据集上的实验结果表明,相比于原始的MapReduce作业外部链式处理,该文提出的BSP模型下的内部超级步迭代计算模式大幅降低了大图算法的处理时间.

英文摘要：

Since analyzing large-scale graph is usually difficult to be implemented on a single machine,how to design efficient parallel large-scale graph algorithms is receiving more and more attention.Constrained by embarrassingly parallel assumption,parallel graph algorithms are not easy to express in MapReduce.Inspired by Bulk Synchronous Parallel model,we propose a message-enhanced version of Hadoop MapReduce that breaks its key assumption.Enhanced implementation is compatible with original Hadoop MapReduce,existing Hadoop MapReduce programs can run directly on this platform without modification,and uses message passing mechanisms to facilitate interactive data communication between supersteps of tasks.It also provides a highly flexible self-defined message passing interface and two adaptive message passing mechanisms to support efficient implementation of graph algorithms with data transition and iterative computation.The experimental results on the real Stanford large network dataset collection demonstrate the superiority of enhanced version over original Hadoop MapReduce on PageRank algorithm.

同期刊论文项目

面向黑盒测试检出的缺陷分类与预测研究

期刊论文 22 会议论文 14

RFID数据管理关键技术的研究

期刊论文 32

数据密集型计算环境下的数据管理方法与技术

期刊论文 125 会议论文 77

同项目期刊论文

面向路网的不确定移动范围查询技术

A framework for supporting tree-like indexes on the Chord overlay

异构存储系统性能监测技术研究

多层次RFID数据流上复杂事件检测

大规模图挖掘算法并行化研究

基于ETW的Windows系统性能监测技术

基于MapReduce的封闭数据立方

一种基于局部冲突分配的DST组合规则

Asyn-SimRank:一种可异步执行的大规模SimRank算法

大图数据上顶点驱动的并行最小生成树算法

Efficient mining differential co-expression biclusters in microarray datasets

一种云环境下基于分级管理的自律计算模型

MapReduce集群中最大收益问题的研究

在线视频点播系统节能方法与策略研究

TBPRS:基于信任关系的社交用户推荐系统

Lightweight Locking for Main Memory Database Systems

面向路网空间的不确定性移动范围查询技术的研究

RM-LCDF:一种块级连续数据保护高效数据恢复方法

用户评论的质量检测与控制研究综述

面向路网的不确定移动范围查询

针对不确定射频识别数据流的改进概率推导方法

基于共享的MapReduce多查询优化技术

基于私有云的虚拟实验平台的设计与实现

基于蛋白质网络的模块动态特性挖掘研究

Semantic relevance ranking for XML keyword search

云计算环境下的大规模图数据处理技术

针对不确定RFID数据流上的改进概率推导方法

<h3 style="color:#222222;text-indent:0px;background-color:#FFFFFF;" class="gs_rt&q

Scalable SPARQL querying of large RDF graphs

FDSS:基于HDFS的海量音乐特征数据存储系统

SERA:股票历史交易重现和分析的原型系统

一种基于LBS的移动个性化推荐系统

基于MapReduce的数据聚集运算算法

云存储性能评测技术与方法研究

A high-level energy consumption model for heterogeneous data centers

云存储性能评测技术研究

海量存储系统能耗评测模型的研究

面向BSP 模型的负载均衡Hash 图数据划分

应用信息论的数据导向模式匹配方法

不确定RFID数据流上基于熵的数据推导方法

S-TRAP: Optimization and Evaluation of Timely Recovery to Any Point-in-time (TRAP)

RFID交叉读仲裁方法研究

RFID数据流上多目标复杂事件检测

异构信息空间中实体关联关系挖掘算法CFRQ4A

ERE:基于半结构化Web页面的实体关系抽取系统

BHP:面向BSP模型的负载均衡Hash图数据划分

Reverse k-ranks query

NTFS文件系统空间回收方法的研究

在线-离线数据流上复杂事件检测

基于概率SLCA的XML过滤

基于Hadoop的封闭直方图立方

Group Location Selection Queries over Uncertain Objects

Performance Evaluation of Online Backup Cloud Storage

支持大数据管理的NoSQL 系统研究综述

异构网络中关联实体识别模型及增量式验证算法研究

A unified framework for semi-supervised PU learning

Differentially private histogram publication

基于分布式的自律计算模型研究与设计

智能超市中在线与离线RFID数据仓库技术研究

基于数据差异的连续数据保护恢复算法

基于OpenFlow的虚拟网络架构的设计与实现

一种基于图结构的Web实体排序方法

一种面向情感分析的微博表情情感词典构建及应用

共享的MapReduce环境下批量作业的调度算法研究

空间数据库中主题相关区域查询

一种基于增量分区的社交网络数据管理与维护方法

Efficient mining differential co-expression bicluster in microarray datasets. Elsevier Gene

Efficient mining differential co-expression constant row bicluster in real-valued gene expression da

多标签数据挖掘技术研究综述

A Novel Approach Based on Multi-View Content Analysis and Semi-Supervised

Query intent disambiguation of keyword-based semantic entity search in dataspaces

一种有效的多数据源RFID冗余数据清洗技术

基于数据价值的云存储动态备份一致性机制

基于信息流动分析的动态社区发现方法

基于关键字语义信息的XML文档分类

<span style="color:red;font-family:宋体;font-size:12pt;"><span style="font-fam

<span style="font-family:宋体;font-size:12pt;"><span style="font-family:;"

<a class="fz14" href="http://epub.cnki.net/kns/detail/detail.aspx?QueryID=2&am

Fast Distributed Transactions and Strongly Consistent Replication for OLTP Database Systems

Marianne Winslett. Differentially private histogram publication

广告点击率估算技术综述

面向用户观点分析的多分类器集成和优化技术

一种障碍空间数据库中的连续反k近邻查询方法

图数据中Top—k属性差异q-clique查询

支持大数据管理的NoSQL系统研究综述

基于堆叠文件系统的云计算存储优化

一种基于Hadoop的多表链接策略

基于关联数据的一致性和时效性清洗方法

基于增量式分区策略的MapReduce数据均衡方法

BOD：一种高效的分布式离群点检测算法

新型OLTP数据库系统设计的关键技术及挑战

大数据环境下并行计算模型的研究进展

一种面向海量分布式数据库的嵌套查询策略

HDFS下海量小文件高效存储与索引方法

面向Web数据集成的真值发现算法

基于差分隐私的频繁序列模式挖掘算法

面向微博系统的实时个性化推荐

SERA:股票历史交易重现和分析系统

Constrained query of order-preserving submatrix in gene expression data

A Novel Approach Based on Multi-View Content Analysis and Semi- Supervised Enrichment for Movie Recommendation

异构数据联合式的真值发现算法

一种面向多源知识图谱的样例查询方法

一种新的基于N-gram模型的重复软件缺陷报告检测方法

基于Trace重放的文件系统性能分析

MXDR:一种基于关键字的XML多文档分布式检索方法

一种多维度存储文件系统的测试指标体系

基于负载的能耗预测与温度监控系统的设计与实现

XIOTR: A terse ranking of XIO for XML keyword search

云存储性能评测技术与方法研究

云存储性能评测技术研究

海量存储系统能耗评测模型的研究

RFID交叉读仲裁方法研究

基于标签序列的半结构化数据相似度度量

磁盘存储测试技术研究

面向MapReduce的非对称分片复制连接算法优化技术研究

一种图形化的软件缺陷描述语言

基于灰色关联分析法的软件缺陷类型预测

基于主题概念的XML文档关键字查询算法

基于层次模型的低耦合RFID中间件研究

基于相关性排序改进的ALCA算法

基于CSIM的大规模RFID数据仿真器研究与实现

基于内存受限的RFID复杂事件处理优化算法

乱序RFID数据流上的复杂事件检测方法

不可靠RFID数据上的复杂事件处理研究

Optimization Techniques for RFID Complex Event Processing

不确定RFID数据流上基于熵的数据推导方法

基于多重分形的聚类层次优化算法

基于本体的DeepWeb数据标注

一种有效的多数据源RFID冗余数据清洗技术

基于词项扩展的XML信息检索反馈技术

分布式RFID复杂事件处理关键技术的研究

两阶段无监督顺序前向分形属性规约算法

远程镜像系统容错机制的研究与实现

基于ConferenceXP的P2P视频会议系统设计与实现

采用位表的块级持续数据容灾系统研究

基于FreeBSD的远程卷复制系统的研究与设计

移动电子政务平台中安全Web服务的研究

嵌入式网管系统的设计与实现

一种基于选择性初始备份和逆向恢复机制的CDP系统

基于iSCSI的多数据保护技术容灾系统框架研究

基于ENFA的乱序RFID复杂事件检测算法

基于滑动窗口的RFID数据流多标签清洗算法

RFID复杂事件检测方法的研究和改进

JFFS3文件系统分析与改进

图结构XML文档的关键字检索方法

基于关键词距离模型的XML文档检索方法

一种考虑标签语义的XML关键字查询算法

期刊信息

《计算机学报》
北大核心期刊（2011版）

主管单位:中国科学院
主办单位:中国计算机学会中国科学院计算技术研究所
主编：孙凝晖
地址：北京中关村科学院南路6号
邮编：100190
邮箱：cjc@ict.ac.cn
电话：010-62620695

国际标准刊号：ISSN：0254-4164
国内统一刊号：ISSN：11-1826/TP
邮发代号:2-833

获奖情况:
中国期刊方阵“双效”期刊

国内外数据库收录:
美国数学评论（网络版）,荷兰文摘与引文数据库,美国工程索引,美国剑桥科学文摘,日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊（2004版）,中国北大核心期刊（2008版）,中国北大核心期刊（2011版）,中国北大核心期刊（2014版）,中国北大核心期刊（2000版）

被引量:48433