K-Means聚类算法原理

K-Means算法是无监督的聚类算法,它实现起来比较简单,聚类效果也不错,因此应用很广泛。K-Means算法有大量的变体,本文就从最传统的K-Means算法讲起,在其基础上讲述K-Means的优化变体方法。包括初始化优化K-Means++, 距离计算优化elkan K-Means算法和大数据情况下的优化Mini Batch K-Means算法。……

阅读更多

数据科学中的6个基本算法,掌握它们要学习哪些知识

如果想从事数据科学,但是又没有数学背景,那么有多少数学知识是做数据科学所必须的?

统计学是学习数据科学绕不开的一门数学基础课程,但数据科学也经常会涉及数学中的其他领域。

数据科学使用算法进行预测,这些算法称为机器学习算法,有数百种之多。有人总结了数据科学中最常用的6种算法,已经掌握它们分别需要哪些数学知识。……

阅读更多

Python实现K-Means聚类算法

k-means聚类是一种矢量量化方法,最初来源于信号处理,在数据挖掘中被广泛应用于聚类分析。k-means聚类的目的是将n个观测值划分为k个观测值,每个观测值都属于最接近均值的聚类,作为聚类的原型。……

阅读更多