东篱科研大数据发现系统（DRDS）

位置：成果数据库 > 期刊 > 期刊详情页

MapReduce环境下支持精确查询的嵌套式数据索引技术

ISSN号：1000-1220
期刊名称：《小型微型计算机系统》
时间：0
分类：TP311[自动化与计算机技术—计算机软件与理论;自动化与计算机技术—计算机科学与技术]
作者机构：[1]上海理工大学光电信息与计算机工程学院,上海200093
相关基金：国家自然科学基金项目（61003031）资助;上海市自然科学基金项目（10ZRl421100）资助;上海市研究生创新基金项目（JWCXSLl302）资助.

关键词：嵌套式数据, 精确查询, 列存储, 倒排索引, UNI, Hash, nested data, precise query, column-storage, inverted index, UniHash

中文摘要：

目前,针对嵌套式数据集上的高效查询处理已成为Web数据检索的一个重要任务.不同于传统信息检索,嵌套式数据集既要存储数据又要存储结构,导致了针对该类数据集查询的低效性,特别是对如何保证精确查询效率更是一个挑战.结合列存储结构和倒排索引技术,首先定义了表达嵌套式数据集中数据位置信息的唯一路径UPath,提出一种新的支持嵌套式数据集精确查询的索引结构——Uni Hash.在此基础上,给出了生成数据值的唯一路径UPath以及基于MapReduce框架建立Uni Hash索引的相关算法.通过将其与XPath检索进行对比,验证了Uni Hash索引结构的有效性.实验表明,将嵌套式数据集进行列式存储并建立Uni Hash索引,能够明显地提高精确查询的效率.

英文摘要：

At present,querying nested data has already become one of the important tasks for Web data retrieval. Unlike the traditional information retrieval, to effectively manage nested data, we need not only to store the data but also its structures, which leads to the low efficiency of retrieving. Especially it brings a challenge for ensuring the efficiency of precise query. Combining the technique of col- umn-strip storage and that of inverted index, this paper defines UPath to express the data objects＇ unique location in nested records and presents a new index structure which supports precise query on nested datasets - UniHash. In addition, this work describes the related algorithms for building UPath and that for establishing UniHash in MapReduce. Compared with XPath-based retrieval, UniHash sup- ported queries have better efficiency. Experiment results show that columnar storage of nested data and indexing it with UniHash can significantly improve the performance of precise queries.

同期刊论文项目

不确定数据流上对象簇管理关键技术研究

期刊论文 17 会议论文 3

同项目期刊论文

一种基于滑动窗口的不确定数据流聚类算法

基于HBase的农业无线传感信息存储系统

MDUAM:一个企业信息集成系统中元数据更新分析与管理系统

图形处理器通用计算的研究综述

一个物联网异构数据接入系统ChukwaX

ZDC-tree:一种支持面向数据流Skyline查询的高效索引结构

文本情感分析在网购评论中的应用前景

基于HBase的大规模无线传感器网络数据存储系统

一种物联网群体访问路由算法

DBA^2 COR：一种适合协同网络QoS路由算法

基于博弈论的蓝牙4.0协同通信策略

基于移动数据的异常区域时序分析

面向DBWorld数据挖掘的学术社区发现算法

一种支持非度量空间中近似查询的索引技术

CPU和GPU混合集群的负载均衡策略

期刊信息

《小型微型计算机系统》
中国科技核心期刊

主管单位:中国科学院
主办单位:中国科学院沈阳计算技术研究所
主编：林浒
地址：沈阳市浑南新区南屏东路16号
邮编：110168
邮箱：xwjxt@sict.ac.cn
电话：024-24696120 024-24696190-8870

国际标准刊号：ISSN：1000-1220
国内统一刊号：ISSN：21-1106/TP
邮发代号:8-108

获奖情况:
中国自然科学核心期刊,中国科学引文数据库来源期刊

国内外数据库收录:
俄罗斯文摘杂志,波兰哥白尼索引,荷兰文摘与引文数据库,美国剑桥科学文摘,英国科学文摘数据库,日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊（2004版）,中国北大核心期刊（2008版）,中国北大核心期刊（2011版）,中国北大核心期刊（2014版）,中国北大核心期刊（2000版）

被引量:23212