东篱科研大数据发现系统（DRDS）

欢迎您！东篱公司退出

申报数据库
1. 申报指南
立项数据库
成果数据库
1. 期刊论文
2. 会议论文
3. 著作
4. 专利
项目获奖数据库

位置：成果数据库 > 期刊 > 期刊详情页

一种基于Hadoop的多表链接策略

ISSN号：1004-373X
期刊名称：《现代电子技术》
时间：0
分类：TN911-34[电子电信—通信与信息系统;电子电信—信息与通信工程] TP311[自动化与计算机技术—计算机软件与理论;自动化与计算机技术—计算机科学与技术]
作者机构：[1]西北工业大学计算机学院,陕西西安710129
相关基金：国家自然科学基金重点项目（61033007）;国家“973”重点基础发展规划基金资助项目（2012CB316203）

作者：徐剑[1], 陈群[1], 王卓[1], 李战怀[1]

关键词：多表链接, 替换-查询, 索引, 缓冲池, 二次排序, multi-table connection, replace-query, index, buffer pool, secondary sorting

中文摘要：

Hadoop系统在处理多表链接问题时,每轮都会将大量的中间结果写入本地磁盘,从而严重降低了系统的处理效率.为解决该问题,提出一种“替换-查询”方法,该方法通过对链接表建立索引,将预输出的元组集替换为索引信息输出到中间结果,以索引的形式参与多表链接,以此减少中间结果的I/O代价.运用缓冲池、二次排序和多线程技术对索引信息进行优化管理,加快索引查询速度.最后在TPC？H数据集上,设计了与原Hadoop的对比实验,结果表明该方法可减少35.5%的存储空间,提高12.9%的运行效率.

英文摘要：

When Hadoop is used to deal with the issue of multi？table connection,a large number of intermediate resultsare written into local disks. As a result,efficiency of the system becomes very low. In order to solve this problem,a “Replace-Query” method is proposed. By building indexes for the connected tables,the pre-output tuple set are replaced as index informa-tion to send to the intermediate results. The I/O cost of the intermediate results becomes quite low. In order to improve systemperformance,it makes full use of buffer pool,secondary sort and multi-thread technique to optimize the management of indexes.These indexes participate in the whole multi-table connecting process and the records can be fully and rapidly recovered by que-rying. An experiment for contrasting it with the original Hadoop was designed on TPC-H data set. The results show that this methodprovides a 35.5% reduction in space consumption,and improves the running efficiency of 12.9%.

同期刊论文项目

数据密集型计算环境下的数据管理方法与技术

期刊论文 125 会议论文 77

同项目期刊论文

面向路网的不确定移动范围查询技术

A framework for supporting tree-like indexes on the Chord overlay

异构存储系统性能监测技术研究

多层次RFID数据流上复杂事件检测

大规模图挖掘算法并行化研究

基于ETW的Windows系统性能监测技术

基于MapReduce的封闭数据立方

一种基于局部冲突分配的DST组合规则

Asyn-SimRank:一种可异步执行的大规模SimRank算法

大图数据上顶点驱动的并行最小生成树算法

Efficient mining differential co-expression biclusters in microarray datasets

一种云环境下基于分级管理的自律计算模型

MapReduce集群中最大收益问题的研究

在线视频点播系统节能方法与策略研究

TBPRS:基于信任关系的社交用户推荐系统

Lightweight Locking for Main Memory Database Systems

面向路网空间的不确定性移动范围查询技术的研究

基于消息传递机制的MapReduce图算法研究

RM-LCDF:一种块级连续数据保护高效数据恢复方法

用户评论的质量检测与控制研究综述

面向路网的不确定移动范围查询

针对不确定射频识别数据流的改进概率推导方法

基于共享的MapReduce多查询优化技术

基于私有云的虚拟实验平台的设计与实现

基于蛋白质网络的模块动态特性挖掘研究

Semantic relevance ranking for XML keyword search

云计算环境下的大规模图数据处理技术

针对不确定RFID数据流上的改进概率推导方法

<h3 style="color:#222222;text-indent:0px;background-color:#FFFFFF;" class="gs_rt&q

Scalable SPARQL querying of large RDF graphs

FDSS:基于HDFS的海量音乐特征数据存储系统

SERA:股票历史交易重现和分析的原型系统

一种基于LBS的移动个性化推荐系统

基于MapReduce的数据聚集运算算法

云存储性能评测技术与方法研究

A high-level energy consumption model for heterogeneous data centers

云存储性能评测技术研究

海量存储系统能耗评测模型的研究

面向BSP 模型的负载均衡Hash 图数据划分

应用信息论的数据导向模式匹配方法

不确定RFID数据流上基于熵的数据推导方法

S-TRAP: Optimization and Evaluation of Timely Recovery to Any Point-in-time (TRAP)

RFID交叉读仲裁方法研究

RFID数据流上多目标复杂事件检测

异构信息空间中实体关联关系挖掘算法CFRQ4A

ERE:基于半结构化Web页面的实体关系抽取系统

BHP:面向BSP模型的负载均衡Hash图数据划分

Reverse k-ranks query

NTFS文件系统空间回收方法的研究

在线-离线数据流上复杂事件检测

基于概率SLCA的XML过滤

基于Hadoop的封闭直方图立方

Group Location Selection Queries over Uncertain Objects

Performance Evaluation of Online Backup Cloud Storage

支持大数据管理的NoSQL 系统研究综述

异构网络中关联实体识别模型及增量式验证算法研究

A unified framework for semi-supervised PU learning

Differentially private histogram publication

基于分布式的自律计算模型研究与设计

智能超市中在线与离线RFID数据仓库技术研究

基于数据差异的连续数据保护恢复算法

基于OpenFlow的虚拟网络架构的设计与实现

一种基于图结构的Web实体排序方法

一种面向情感分析的微博表情情感词典构建及应用

共享的MapReduce环境下批量作业的调度算法研究

空间数据库中主题相关区域查询

一种基于增量分区的社交网络数据管理与维护方法

Efficient mining differential co-expression bicluster in microarray datasets. Elsevier Gene

Efficient mining differential co-expression constant row bicluster in real-valued gene expression da

多标签数据挖掘技术研究综述

A Novel Approach Based on Multi-View Content Analysis and Semi-Supervised

Query intent disambiguation of keyword-based semantic entity search in dataspaces

一种有效的多数据源RFID冗余数据清洗技术

基于数据价值的云存储动态备份一致性机制

基于信息流动分析的动态社区发现方法

基于关键字语义信息的XML文档分类

<span style="color:red;font-family:宋体;font-size:12pt;"><span style="font-fam

<span style="font-family:宋体;font-size:12pt;"><span style="font-family:;"

<a class="fz14" href="http://epub.cnki.net/kns/detail/detail.aspx?QueryID=2&am

Fast Distributed Transactions and Strongly Consistent Replication for OLTP Database Systems

Marianne Winslett. Differentially private histogram publication

广告点击率估算技术综述

面向用户观点分析的多分类器集成和优化技术

一种障碍空间数据库中的连续反k近邻查询方法

图数据中Top—k属性差异q-clique查询

支持大数据管理的NoSQL系统研究综述

基于堆叠文件系统的云计算存储优化

基于关联数据的一致性和时效性清洗方法

基于增量式分区策略的MapReduce数据均衡方法

BOD：一种高效的分布式离群点检测算法

新型OLTP数据库系统设计的关键技术及挑战

大数据环境下并行计算模型的研究进展

一种面向海量分布式数据库的嵌套查询策略

HDFS下海量小文件高效存储与索引方法

面向Web数据集成的真值发现算法

基于差分隐私的频繁序列模式挖掘算法

面向微博系统的实时个性化推荐

SERA:股票历史交易重现和分析系统

Constrained query of order-preserving submatrix in gene expression data

A Novel Approach Based on Multi-View Content Analysis and Semi- Supervised Enrichment for Movie Recommendation

异构数据联合式的真值发现算法

一种面向多源知识图谱的样例查询方法

期刊信息

《现代电子技术》
北大核心期刊（2014版）

主管单位:陕西省信息产业厅
主办单位:陕西电子杂志社陕西省电子技术研究所
主编：张郁（执行）
地址：西安市金花北路176号陕西省电子技术研究所科研生产大楼六层
邮编：710032
邮箱：met@xddz.com.cn
电话：029-93228979

国际标准刊号：ISSN：1004-373X
国内统一刊号：ISSN：61-1224/TN
邮发代号:52-126

获奖情况:
中国科技核心期刊

国内外数据库收录:
波兰哥白尼索引,中国中国科技核心期刊,中国北大核心期刊（2014版）

被引量:37245