东篱科研大数据发现系统（DRDS）

位置：成果数据库 > 期刊 > 期刊详情页

SHELL：一种面向流数据的实时基数估计算法

ISSN号：1673-5439
期刊名称：《南京邮电大学学报：自然科学版》
时间：0
分类：TP311.11[自动化与计算机技术—计算机软件与理论;自动化与计算机技术—计算机科学与技术]
作者机构：[1]南京邮电大学计算机学院,江苏南京210023, [2]南京工业职业技术学院计算机学院,江苏南京210023, [3]南京邮电大学江苏省无线传感网高技术研究重点实验室,江苏南京210023, [4]南京邮电大学先进技术研究院,江苏南京210023, [5]南京理工大学高维信息智能感知与系统教育部重点实验室,江苏南京210094
相关基金：国家重点研发计划（2017YFB0202200）; 国家自然科学基金（61170065,61373017）; 江苏省重点研发计划（BE2017166）; 江苏省自然科学基金优秀青年基金（BK20170100）; 南京理工大学高维信息智能感知与系统教育部重点实验室开放基金; 江苏省无线传感网高技术研究重点实验室开放基金（WSNLBZY201514）; 南京邮电大学校级科研基金（NY214067）资助项目

作者：刘尚东[1], 张殿超[1], 尧海昌[1,2], 姚橹[1], 叶青[1], 季一木[1,3,4,5], 王汝传[1,3]

关键词：大数据处理技术, 流数据, 基数估计, 并行化算法, big data processing techniques, stream data, cardinality evaluation, paralleling algorithm

中文摘要：

基数计算在流数据查询优化、网络安全、数据压缩等领域具有重要的应用价值。现有的基于概率统计原理的基数估计算法需要通过扫描历史静态数据才能进行基数统计,由于流数据具有持续、快速和实时等特点,不可能先持久化再处理分析,因而传统的基数估计算法无法直接应用在大数据流处理中。通过研究Spark、Storm实时分布式流处理机制和传统基数估计算法,设计和实现了实时的流数据基数估计算法SHELL（Streaming HypErLogLog）,实验表明,SHELL在保证精确度不降低的情况下,单位滑动时间窗口内处理的消息量达到6.0×10^5～6.8×10^5,满足实时性处理的要求。

英文摘要：

Cardinality estimation has an important application value in the fields of stream-data query optimization,network security,data compression and so on. Some existing probabilistic algorithms are developed to estimate the cardinality by scanning the static historical data. Due to the infinite,fast,real-time characteristics of data stream,the algorithms cannot be applied to an infinite data stream. By studying streaming data-process mechanisms of Spark,Storm and existing probabilistic algorithms,a real-time cardinality evaluation algorithm,Streaming Hyp Er Log Log（ SHELL）,for stream data is designed and implemented. Experimental results show that SHELL can achieve 6. 0 × 105-6. 8 × 105 messages in one sliding time window. Therefore,SHELL can satisfy real-time requirements.

同期刊论文项目