1、数据发展之路:
①、数据小白
②、数据分析师
③、数据挖掘工程师
④、算法工程师
⑤、数据科学家
2、sklearn
即scikit-learn,是一个开源的基于python语言的机器学习工具,它通过Numpy,scipy和
Matplotlib等python数值计算的库实现高效的算法应用,并且涵盖了几乎所有主流
的机器学习算法。(使用简单,但是源码内容复杂)
有六大模块:分类,降维,回归,聚类,
3、监督学习和无监督学习
3-1 有监督学习:
模型在训练的时候,即需要特征矩阵x,也需要真实标签y。
3-2 无监督学习
在机器学习中,无监督的算算法在训练的时候只需要特征矩阵x,不要需标签y,PCA就是
无监督学习的一种。
降维的目的不是为了输出一个具体的标签,而是降低特征值的数量。
聚类算法是无监督学习的代表算法之一,又叫做无监督分类。其目的就是为了将数据划分
成不同有意义的簇(cluster)。
比如:对客户聚类划分(RFM0用户价值判断),实现精准营销
4、聚类和分类的区别
聚类算法在sklearn中有两种表现形式,一种是类,一种是函数(function)
注:[ ] 内的参数可以不填,外面的参数必须填入
5、典型聚类算法(k-means)
5-1k-means的关键参数-簇(cluster)和质心(centroids)
三种距离计算公式:
欧几里得距离(数字与数字之间的差异):如下,
曼哈顿距离(类似欧几里得距离)
余弦距离(文本与文本之间的差异)
一般k-means算法采用欧几里得距离,则一个簇中所有样本点到质心距离的平方和:
称为簇内平方和,又叫inertia,又一个数据集中所有簇内平方和相加,又叫整体平方和。
所以k-means追求的是求解能够让inertia最小化的质心。
5-2损失函数
损失函数的本质:用来衡量模型的拟合效果的,只有有着求解参数需求的算法,才会有损失函数。
k-means算法不求解什么参数,所以他的模型本质也没有拟合数据,而是对数据进行一种探索,所以k-means没有损失函数。inertia更像是k-means算法的模型评估指标。
如决策树树中,衡量分类效果的指标是准确度accuracy,我们不能以最小化accuracy来求解某个模型中需要的信息,因此决策树,KNN等算法是绝对没有损失函数的。