随着云计算,物联网以及移动互联网的快速发展,随之产生的数据量也急速膨胀,如何从海量的数据中挖掘出自己所需的信息尤为重要,聚类是解决该问题的重要途径之一。一方面,网络上不断产生大量的文档数据,这些数据量已经远远地超过了人们对信息的利用能力。云计算的出现为数据挖掘打开了一扇新世界的大门。通过搭建hadoop和mahout平台,讨论基于hadoop和mahout聚类系统的实现,可以看出Mahout是一个处理大数据的优秀平台。