位置:成果数据库 > 期刊 > 期刊详情页
列存储数据区级压缩模式与压缩策略选择方法
  • ISSN号:0254-4164
  • 期刊名称:《计算机学报》
  • 时间:0
  • 分类:TP311[自动化与计算机技术—计算机软件与理论;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]东华大学计算机科学与技术学院,上海201620, [2]南京大学计算机软件新技术国家重点实验室,南京210093
  • 相关基金:国家自然科学基金(60773100)资助
中文摘要:

压缩技术是列存储数据管理的重要研究内容之一.目前多数方法对同一列数据使用单一压缩方法进行压缩,忽略了数据的局部分布特性,极大地影响了压缩性能.该文提出一种区级压缩模式,并在此模式下提出基于学习的压缩策略选择方法.首先该文将数据列进一步划分为区,并分别定义相邻区信息与区所在列的统计信息为参照信息,进而通过学习参照信息与当前区之间的相似性和差异性进行策略推荐.最后该文对区进行局部学习从而对推荐压缩策略进行修正,保证压缩策略的有效性.在数据仓库基准数据集SSB上的实验结果验证了该文方法的有效性.

英文摘要:

Compression technology is an important research field in column-oriented management system.However,most previous compression techniques for column-oriented data use same algorithm for all columns,ignoring the local distribution of data,which greatly degrade the compression performance.This paper proposes a sector-based compress pattern,under such pattern further provides a novel learning-based compression strategy selection method for column stores.First,data column is divided into sectors in the method.The neighbor sector information and the statistic information of the column with the given sector respectively are extracted as two references.Then by learning the similarity between the reference and the given sector the recommended compression strategy can be obtained.Finally,the recommended compression strategy is improved by partly learning the given sector to guarantee the effectiveness of it.The experimental results on data warehouse benchmark data set SSB testify the effectiveness of the proposed method.

同期刊论文项目
期刊论文 91 会议论文 9 专利 1
同项目期刊论文
期刊信息
  • 《计算机学报》
  • 北大核心期刊(2011版)
  • 主管单位:中国科学院
  • 主办单位:中国计算机学会 中国科学院计算技术研究所
  • 主编:孙凝晖
  • 地址:北京中关村科学院南路6号
  • 邮编:100190
  • 邮箱:cjc@ict.ac.cn
  • 电话:010-62620695
  • 国际标准刊号:ISSN:0254-4164
  • 国内统一刊号:ISSN:11-1826/TP
  • 邮发代号:2-833
  • 获奖情况:
  • 中国期刊方阵“双效”期刊
  • 国内外数据库收录:
  • 美国数学评论(网络版),荷兰文摘与引文数据库,美国工程索引,美国剑桥科学文摘,日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版),中国北大核心期刊(2000版)
  • 被引量:48433