09-27 (回归复习)+ 聚类

线性回归:

回归主要解决预测的问题,预测的实施过程中,过程监控比预测更重要,根据实时监控随时调整预测;

在执行过程中,根据监控值实时调整判断预测;

逻辑回归:

数据清洗 (包括处理空值--- 填充平均值 或者 删除)
Excel 技巧( $锁定符,用于公式中)

初步筛选有关字段(通过数据透视表)

回归本质是分类,有分类的固定方法;

三原理:

回归分析:训练出已知的两个不同的数组间的函数关系,并作出预测;

分类分析:从一组样本中,找出方法作出分类,并对未参与训练的个体作出预测;

聚类分析: 对一组样本作出区分,成为继续探索几个簇间差异的依据。

聚类分析

的特点:

解决模糊问题的模糊方法,不能做严密的检验。

背景: 很多问题没法给出明确的解决;
是一种无监督的学习算法,没有严格意义的对错之分;
不同的人或者方法,聚类的结果很可能不一样;
对噪点敏感,需要提剔除噪点;
数据形状大都不会规则的球形,分类算法需要能处理特殊形状的数据;

一个聚类分析往往是基于点与点之间的距离关系展开的。

K-means

只能对球状数据做出处理;

点与点之间的距离计算—  勾股定理
距离间的标准化—

欧几里得距离公式: √(q&∑_█(i=1@)n▒〖|xi-yi|q〗)

相关系数r: coefficient of associon
方差:variance
标准差: standard deviation

指标标准化(降低大量级字段权重占比—抵消字段量级上的差异带来的权重分配不公) x1= (x-μ)/σ ( x 为数据集中原数,x1为x标准化后的数,μ为x同类数的均值,σ为x同类数的标准差)

聚类结果好坏的判断:–轮廓系数

计算公式:
S(i)= b(i) –a(i) / max{b(i),a(i)}

其中:
a(i)为点到本簇所有点的平均距离
b(i)为点到其他簇所有点的平均距离

所有点的轮廓系数堆积起来构成的图叫做 堆积图;

(我我们希望点的轮廓系数越小越好,说明分类的结果好 )

K_Means 最常用的聚类算法:

算法逻辑如下:

选择k个初始质心,初始质心随机选择即可,每一个质心为一个类;
把每个观测指标派到离他最近的质心,与质心形成新的类;
重新计算每个类的质心,所谓质心就是一个类中所有观测的平均向量(这里称为
	向量,是因为每一个观测都包含很多变量,所以我们把一个观测视为一个多维向
	量,维数由变量数决定);
重复2和3
直到质心不在发生变化或者到达最大迭代次数。

最难点:如何选择质心数

分类次数的最大值: 防止死循环的产生(25)

算法的局限性:

初始质心的选择特别重要,往往需要通过反复测试找到最优解;
只适合[球形]数据;

遇事不决summary

Kmeans实际案例:

<-  表示赋值
$ 表示
iris2<-iris[,1:4]                    
行数不变,取原来数据的1-4列 
iris.kmeans<-kmeans(iris2,3)        
分三类: 鸢尾花 只有三类;聚合一下花,花瓣的宽度和长度
iris.kmeans

table(iris$Species,iris.kmeans$cluster)  

我们通过这种方法分类的结果和原数据集中分类的结果差异有多大

plot(iris2$Speal.length,iris2$sepal.Width
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值