09-27 （回归复习）+ 聚类

最新推荐文章于 2021-06-04 10:00:10 发布

withxinxin

最新推荐文章于 2021-06-04 10:00:10 发布

阅读量247

点赞数

分类专栏：知识要点

本文链接：https://blog.csdn.net/weixin_46400833/article/details/108819657

版权

线性回归：

回归主要解决预测的问题，预测的实施过程中，过程监控比预测更重要，根据实时监控随时调整预测；

在执行过程中，根据监控值实时调整判断预测；

逻辑回归：

数据清洗 （包括处理空值--- 填充平均值 或者 删除）
Excel 技巧（ $锁定符，用于公式中）

初步筛选有关字段（通过数据透视表）

回归本质是分类，有分类的固定方法；

三原理：

回归分析：训练出已知的两个不同的数组间的函数关系，并作出预测；

分类分析：从一组样本中，找出方法作出分类，并对未参与训练的个体作出预测；

聚类分析：对一组样本作出区分，成为继续探索几个簇间差异的依据。

聚类分析

的特点：

解决模糊问题的模糊方法，不能做严密的检验。

背景：很多问题没法给出明确的解决；
是一种无监督的学习算法，没有严格意义的对错之分；
不同的人或者方法，聚类的结果很可能不一样；
对噪点敏感，需要提剔除噪点；
数据形状大都不会规则的球形，分类算法需要能处理特殊形状的数据；

一个聚类分析往往是基于点与点之间的距离关系展开的。

K-means

只能对球状数据做出处理；

点与点之间的距离计算—  勾股定理
距离间的标准化—

欧几里得距离公式： √(q&∑_█(i=1@)^{n▒〖|xi-yi|}q〗)

相关系数r： coefficient of associon
方差：variance
标准差： standard deviation

指标标准化（降低大量级字段权重占比—抵消字段量级上的差异带来的权重分配不公） x1= （x-μ）/σ （ x 为数据集中原数，x1为x标准化后的数，μ为x同类数的均值，σ为x同类数的标准差）

聚类结果好坏的判断：–轮廓系数

计算公式：
S(i)= b(i) –a(i) / max{b(i),a(i)}

其中：
a（i）为点到本簇所有点的平均距离
b（i）为点到其他簇所有点的平均距离

所有点的轮廓系数堆积起来构成的图叫做堆积图；

（我我们希望点的轮廓系数越小越好，说明分类的结果好）

K_Means 最常用的聚类算法：

算法逻辑如下：

选择k个初始质心，初始质心随机选择即可，每一个质心为一个类；
把每个观测指标派到离他最近的质心，与质心形成新的类；
重新计算每个类的质心，所谓质心就是一个类中所有观测的平均向量（这里称为
	向量，是因为每一个观测都包含很多变量，所以我们把一个观测视为一个多维向
	量，维数由变量数决定）；
重复2和3
直到质心不在发生变化或者到达最大迭代次数。

最难点：如何选择质心数

分类次数的最大值： 防止死循环的产生（25）

算法的局限性：

初始质心的选择特别重要，往往需要通过反复测试找到最优解；
只适合[球形]数据；

遇事不决summary

Kmeans实际案例：

<-  表示赋值
$ 表示

iris2<-iris[,1:4]                    
行数不变，取原来数据的1-4列 
iris.kmeans<-kmeans(iris2,3)        
分三类： 鸢尾花 只有三类；聚合一下花，花瓣的宽度和长度
iris.kmeans

table(iris$Species,iris.kmeans$cluster)  

我们通过这种方法分类的结果和原数据集中分类的结果差异有多大

plot(iris2$Speal.length,iris2$sepal.Width

最低0.47元/天解锁文章

withxinxin

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
09-27 （回归复习）+ 聚类

线性回归：回归主要解决预测的问题，预测的实施过程中，过程监控比预测更重要，根据实时监控随时调整预测；在执行过程中，根据监控值实时调整判断预测；逻辑回归：数据清洗（包括处理空值--- 填充平均值或者删除）Excel 技巧（ $锁定符，用于公式中）初步筛选有关字段（通过数据透视表）回归本质是分类，有分类的固定方法；三原理：回归分析：训练出已知的两个不同的数组间的函数关系，并作出预测；分类分析：从一组样本中，找出方法作出分类，并对未参与训练的个体作出预测；聚类分析：对一组样本作出
复制链接

扫一扫