位置:成果数据库 > 期刊 > 期刊详情页
SHELL:一种面向流数据的实时基数估计算法
  • ISSN号:1673-5439
  • 期刊名称:《南京邮电大学学报:自然科学版》
  • 时间:0
  • 分类:TP311.11[自动化与计算机技术—计算机软件与理论;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]南京邮电大学计算机学院,江苏南京210023, [2]南京工业职业技术学院计算机学院,江苏南京210023, [3]南京邮电大学江苏省无线传感网高技术研究重点实验室,江苏南京210023, [4]南京邮电大学先进技术研究院,江苏南京210023, [5]南京理工大学高维信息智能感知与系统教育部重点实验室,江苏南京210094
  • 相关基金:国家重点研发计划(2017YFB0202200); 国家自然科学基金(61170065,61373017); 江苏省重点研发计划(BE2017166); 江苏省自然科学基金优秀青年基金(BK20170100); 南京理工大学高维信息智能感知与系统教育部重点实验室开放基金; 江苏省无线传感网高技术研究重点实验室开放基金(WSNLBZY201514); 南京邮电大学校级科研基金(NY214067)资助项目
中文摘要:

基数计算在流数据查询优化、网络安全、数据压缩等领域具有重要的应用价值。现有的基于概率统计原理的基数估计算法需要通过扫描历史静态数据才能进行基数统计,由于流数据具有持续、快速和实时等特点,不可能先持久化再处理分析,因而传统的基数估计算法无法直接应用在大数据流处理中。通过研究Spark、Storm实时分布式流处理机制和传统基数估计算法,设计和实现了实时的流数据基数估计算法SHELL(Streaming HypErLogLog),实验表明,SHELL在保证精确度不降低的情况下,单位滑动时间窗口内处理的消息量达到6.0×10^5~6.8×10^5,满足实时性处理的要求。

英文摘要:

Cardinality estimation has an important application value in the fields of stream-data query optimization,network security,data compression and so on. Some existing probabilistic algorithms are developed to estimate the cardinality by scanning the static historical data. Due to the infinite,fast,real-time characteristics of data stream,the algorithms cannot be applied to an infinite data stream. By studying streaming data-process mechanisms of Spark,Storm and existing probabilistic algorithms,a real-time cardinality evaluation algorithm,Streaming Hyp Er Log Log( SHELL),for stream data is designed and implemented. Experimental results show that SHELL can achieve 6. 0 × 105-6. 8 × 105 messages in one sliding time window. Therefore,SHELL can satisfy real-time requirements.

同期刊论文项目
期刊论文 81 会议论文 2
同项目期刊论文
期刊信息
  • 《南京邮电大学学报:自然科学版》
  • 中国科技核心期刊
  • 主管单位:江苏省教育厅
  • 主办单位:南京邮电大学
  • 主编:颜晓红
  • 地址:南京市龙蟠路177号
  • 邮编:210042
  • 邮箱:xb@njupt.edu.cn
  • 电话:025-85866912
  • 国际标准刊号:ISSN:1673-5439
  • 国内统一刊号:ISSN:32-1772/TN
  • 邮发代号:
  • 获奖情况:
  • 国内外数据库收录:
  • 波兰哥白尼索引,荷兰文摘与引文数据库,美国剑桥科学文摘,英国科学文摘数据库,中国中国科技核心期刊,中国北大核心期刊(2011版),中国北大核心期刊(2014版)
  • 被引量:2809