03-04算法学习- 1 (sklearn 和k-means)

1、数据发展之路:

①、数据小白
②、数据分析师
③、数据挖掘工程师
④、算法工程师
⑤、数据科学家

2、sklearn

即scikit-learn,是一个开源的基于python语言的机器学习工具,它通过Numpy,scipy和
Matplotlib等python数值计算的库实现高效的算法应用,并且涵盖了几乎所有主流
的机器学习算法。(使用简单,但是源码内容复杂)

有六大模块:分类,降维,回归,聚类,

3、监督学习和无监督学习

3-1 有监督学习:

模型在训练的时候,即需要特征矩阵x,也需要真实标签y。

3-2 无监督学习

在机器学习中,无监督的算算法在训练的时候只需要特征矩阵x,不要需标签y,PCA就是
无监督学习的一种。

降维的目的不是为了输出一个具体的标签,而是降低特征值的数量。

聚类算法是无监督学习的代表算法之一,又叫做无监督分类。其目的就是为了将数据划分
成不同有意义的簇(cluster)。

比如:对客户聚类划分(RFM0用户价值判断),实现精准营销

4、聚类和分类的区别
在这里插入图片描述
聚类算法在sklearn中有两种表现形式,一种是类,一种是函数(function)

注:[ ] 内的参数可以不填,外面的参数必须填入

5、典型聚类算法(k-means)

5-1k-means的关键参数-簇(cluster)和质心(centroids)

三种距离计算公式:

欧几里得距离(数字与数字之间的差异):如下,
曼哈顿距离(类似欧几里得距离)
余弦距离(文本与文本之间的差异)



一般k-means算法采用欧几里得距离,则一个簇中所有样本点到质心距离的平方和:
称为簇内平方和,又叫inertia,又一个数据集中所有簇内平方和相加,又叫整体平方和。

在这里插入图片描述

所以k-means追求的是求解能够让inertia最小化的质心。

5-2损失函数

损失函数的本质:用来衡量模型的拟合效果的,只有有着求解参数需求的算法,才会有损失函数。

k-means算法不求解什么参数,所以他的模型本质也没有拟合数据,而是对数据进行一种探索,所以k-means没有损失函数。inertia更像是k-means算法的模型评估指标。

如决策树树中,衡量分类效果的指标是准确度accuracy,我们不能以最小化accuracy来求解某个模型中需要的信息,因此决策树,KNN等算法是绝对没有损失函数的。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值