利用基因芯片可以得到不同基因在不同生命过程中的表达,因此在医学诊断与病变分析中受到重视,并开始大量应用.经测定发现,不同基因在病变过程的不同阶段中的表达是不相同的,由此可以得到在病变过程的不同基因的表达特征.在本文中,我们给出了乳腺癌在转移过程中的基因表达特征的聚类分析法分析,并改进了k-means聚类算法,使之具有自动搜索聚类数的功能,并且有助于改善k-means算法的聚类结果陷入局部最小值的状况.通过对平均聚类误差指标的比较,kr—means要优于k-means算法.本文所得到的结果可供乳腺癌诊断与病变分析参考,同时可以应用于小型基因检测芯片的制备,也可以用于构建基因网络调控图.
We propose an ameliorated k-means algorithm, named kr-means. A recursive iteration step is introduced to the kr-means algorithm. This step avoids guesstimating the k in k-means algorithm and compute k automatically. According the average error of the clustering, kr-means shows better performance comparing with k-means.