位置:成果数据库 > 期刊 > 期刊详情页
面向范畴类型数据的sIB算法
  • ISSN号:0732-2112
  • 期刊名称:电子学报
  • 时间:0
  • 页码:2165-2172
  • 语言:中文
  • 分类:TP18[自动化与计算机技术—控制科学与工程;自动化与计算机技术—控制理论与控制工程]
  • 作者机构:[1]郑州大学信息工程学院计算机科学系,河南郑州450052, [2]北京交通大学轨道交通控制与安全国家重点实验室,北京100044
  • 相关基金:国家自然科学基金(No.60773048)
  • 相关项目:IB算法及其应用的研究
中文摘要:

本文针对sIB算法仅适用于共现数据的问题,提出了一种能够自动进行范畴类型数据分析的sIB算法:CD-sIB.该算法根据范畴类型数据的离散化表示、不同属性值有限的特征,进行数据的属性的拓展和二元化处理,基于属性值的出现进行X,Y的联合分布的计算,使得sIB算法可有效应用于范畴类型数据的分析.实验结果表明:CD-sIB算法相对于现有的面向范畴类型数据聚类模式分析的算法GAClust和K-modes具有明显的优势;CD-sIB算法在进行数据属性概化程度高、类数据分布相对平衡的范畴类型数据的分析中,在效率和精确度方面均很突出.

英文摘要:

The sIB algorithm has previously been only applied to the analysis of co-occurence data.Therefore,it cannot directly analyze categorical data that do not appear in the form of co-occurrence of two variables X,Y.Aiming to solve the problem,this paper proposes a CD-sIB algorithm for automatically analyzing categorical data based on the theory of sIB algorithm.According to the nature that categorical data is discrete and its distinct attribute value is finite,CD-sIB algorithm counts joint distribution of relevant variable X,Y based on the occurence frequency of attribute value by extending the attributes of dataset and utilizing binarization to process the categorical data.Consequently,our algorithm can be effectively employed in analyzing the categorical data.As shown by our experimental results,CD-sIB outperforms the GAClust and the K-modes algorithm,and it achieves high precision and efficiency in analyzing categorical data,especially in the analysis of categorical data which is highly generalizable and comparatively balanced in the data distribution of each class.

同期刊论文项目
期刊论文 35 会议论文 7
同项目期刊论文