针对已有的基于距离的离群点检测算法在大数据集上扩展性差的问题,提出了基于聚类和距离混合的大数据集离群检测算法。算法第一阶段采用层次聚类和k-means混合的层次k-means算法对数据进行聚类,并按照一个启发式规则对其进行排序。第二阶段在聚类的结果上采用嵌套循环算法进行离群检测,并通过两个剪枝规则进行高效剪枝,减少了离群检测时数据点之间距离计算的次数。理论分析和实验结果证明了算法的可行性和效率。