03-04算法学习- 1 （sklearn 和k-means）

最新推荐文章于 2022-08-03 21:12:12 发布

withxinxin

最新推荐文章于 2022-08-03 21:12:12 发布

阅读量166

点赞数

分类专栏：知识要点

本文链接：https://blog.csdn.net/weixin_46400833/article/details/114370104

版权

知识要点专栏收录该内容

118 篇文章 1 订阅

订阅专栏

1、数据发展之路：

①、数据小白
②、数据分析师
③、数据挖掘工程师
④、算法工程师
⑤、数据科学家

2、sklearn

即scikit-learn，是一个开源的基于python语言的机器学习工具，它通过Numpy，scipy和
Matplotlib等python数值计算的库实现高效的算法应用，并且涵盖了几乎所有主流
的机器学习算法。（使用简单，但是源码内容复杂）

有六大模块：分类，降维，回归，聚类，

3、监督学习和无监督学习

3-1 有监督学习：

模型在训练的时候，即需要特征矩阵x，也需要真实标签y。

3-2 无监督学习

在机器学习中，无监督的算算法在训练的时候只需要特征矩阵x，不要需标签y，PCA就是
无监督学习的一种。

降维的目的不是为了输出一个具体的标签，而是降低特征值的数量。

聚类算法是无监督学习的代表算法之一，又叫做无监督分类。其目的就是为了将数据划分
成不同有意义的簇（cluster）。

比如：对客户聚类划分（RFM0用户价值判断），实现精准营销

4、聚类和分类的区别
在这里插入图片描述
聚类算法在sklearn中有两种表现形式，一种是类，一种是函数（function）

注：[ ] 内的参数可以不填，外面的参数必须填入

5、典型聚类算法（k-means）

5-1k-means的关键参数-簇（cluster）和质心（centroids）

三种距离计算公式：

欧几里得距离（数字与数字之间的差异）：如下，
曼哈顿距离（类似欧几里得距离）
余弦距离（文本与文本之间的差异）



一般k-means算法采用欧几里得距离，则一个簇中所有样本点到质心距离的平方和：
称为簇内平方和，又叫inertia，又一个数据集中所有簇内平方和相加，又叫整体平方和。

在这里插入图片描述

所以k-means追求的是求解能够让inertia最小化的质心。

5-2损失函数

损失函数的本质：用来衡量模型的拟合效果的，只有有着求解参数需求的算法，才会有损失函数。

k-means算法不求解什么参数，所以他的模型本质也没有拟合数据，而是对数据进行一种探索，所以k-means没有损失函数。inertia更像是k-means算法的模型评估指标。

如决策树树中，衡量分类效果的指标是准确度accuracy，我们不能以最小化accuracy来求解某个模型中需要的信息，因此决策树，KNN等算法是绝对没有损失函数的。

withxinxin

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
03-04算法学习- 1 （sklearn 和k-means）

1、数据发展之路：①、数据小白②、数据分析师③、数据挖掘工程师④、算法工程师⑤、数据科学家2、sklearn即scikit-learn，是一个开源的基于python语言的机器学习工具，它通过Numpy，scipy和Matplotlib等python数值计算的库实现高效的算法应用，并且涵盖了几乎所有主流的机器学习算法。（使用简单，但是源码内容复杂）有六大模块：分类，降维，回归，聚类，3、监督学习和无监督学习3-1 有监督学习：模型在训练的时候，即需要特征矩阵x，也需要真实标签y
复制链接

扫一扫