高维数据处理能力是聚类研究的难点之一。本项目拟针对高维数据普遍具有稀疏特征,提出特定的高维数据表示、数据精简和差异度计算方法,并进一步给出高效的不同数据类型的聚类算法。主要研究内容包括 (1)高维稀疏数据的特征表示和基本性质、针对高维稀疏数据聚类的更高效更高质量地缺失数据填补方法和数据取值类型转换方法。 (2)在保留全部原有数据信息或至少保留聚类相关信息的情况下,高维稀疏数据的精简方法、存在缺失数据的高维稀疏数据精简方法、兼顾缺失数据填补的高维稀疏数据精简方法。 (3)不同数据类型的高维稀疏数据集合差异度计算方法。针对高维稀疏数据聚类,从根本上解决差异度计算问题,为高效聚类算法的提出提供理论依据。 (4)不同数据类型的高维稀疏数据聚类算法。
英文主题词high dimensionality; sparse data; clustering; data mining