位置:成果数据库 > 期刊 > 期刊详情页
基于相关分析的多数据流聚类
  • ISSN号:1000-9825
  • 期刊名称:《软件学报》
  • 时间:0
  • 分类:TP18[自动化与计算机技术—控制科学与工程;自动化与计算机技术—控制理论与控制工程]
  • 作者机构:[1]南京航空航天大学信息科学与技术学院,江苏南京210093, [2]扬州大学计算机科学与工程系,江苏扬州225009, [3]南京大学计算机软件新技术国家重点实验室,江苏南京210093
  • 相关基金:Supported by the National Natural Science Foundation of China under Grant Nos.60673060, 60773103 ; the Natural Science Foundation of Jiangsu Province of China under Grant No.BK2008206
中文摘要:

提出基于相关分析的多数据流聚类算法.该算法将多数据流的原始数据快速压缩成一个统计概要.根据这些统计概要,可以增量式地计算相关系数来衡量数据间的相似度.提出了一种改进的k-平均算法来生成聚类结果.改进的缸平均算法可以动态、实时地调整聚类数目,并及时检测数据流的发展变化.还将算法应用到按照用户要求的聚类问题(COD),使得用户可以在任意的时间区间上查询聚类结果.提出了一种合理的时间片断划分机制,使得用户指定的任意时间区间都可以由这些时间片断组合而成.在模拟和真实数据上的实验结果都表明,该算法比其他方法具有更好的聚类质量、速度和稳定性,能够实时地反映数据流的变化.

英文摘要:

This paper proposes a compression scheme which quickly compresses the raw data from multiple streams into a compressed synopsis. The synopsis allows to incrementally reconstruct the correlation coefficients without accessing the raw data. A modified k-means algorithm is developed to generate clustering results and dynamically adjust the number of clusters in real time so as to detect the evolving changes in the data streams. Finally, the framework is extended to support clustering on demand (COD), where a user can query for clustering results over an arbitrary time horizon. A theoretically sound time-segment partitioning scheme is developed so that any demand time horizon can be fulfilled by a combination of those time-segments. Experimental results on synthetic and real data sets show that the algorithm has higher clustering quality, speed and stability than other methods and can detect the evolving changes of the data streams in real time.

同期刊论文项目
期刊论文 56 会议论文 8 获奖 4 专利 1
期刊论文 105 会议论文 50 专利 1
同项目期刊论文
期刊信息
  • 《软件学报》
  • 北大核心期刊(2011版)
  • 主管单位:中国科学院
  • 主办单位:中国科学院软件研究所 中国计算机学会
  • 主编:赵琛
  • 地址:北京8718信箱中国科学院软件研究所
  • 邮编:100190
  • 邮箱:jos@iscas.ac.cn
  • 电话:010-62562563
  • 国际标准刊号:ISSN:1000-9825
  • 国内统一刊号:ISSN:11-2560/TP
  • 邮发代号:82-367
  • 获奖情况:
  • 2001年入选中国期刊方阵“双百期刊”,2000年荣获中国科学院优秀科技期刊一等奖
  • 国内外数据库收录:
  • 俄罗斯文摘杂志,美国数学评论(网络版),波兰哥白尼索引,德国数学文摘,荷兰文摘与引文数据库,美国工程索引,美国剑桥科学文摘,英国科学文摘数据库,日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版),中国北大核心期刊(2000版)
  • 被引量:54609