线性回归:
回归主要解决预测的问题,预测的实施过程中,过程监控比预测更重要,根据实时监控随时调整预测;
在执行过程中,根据监控值实时调整判断预测;
逻辑回归:
数据清洗 (包括处理空值--- 填充平均值 或者 删除)
Excel 技巧( $锁定符,用于公式中)
初步筛选有关字段(通过数据透视表)
回归本质是分类,有分类的固定方法;
三原理:
回归分析:训练出已知的两个不同的数组间的函数关系,并作出预测;
分类分析:从一组样本中,找出方法作出分类,并对未参与训练的个体作出预测;
聚类分析: 对一组样本作出区分,成为继续探索几个簇间差异的依据。
聚类分析
的特点:
解决模糊问题的模糊方法,不能做严密的检验。
背景: 很多问题没法给出明确的解决;
是一种无监督的学习算法,没有严格意义的对错之分;
不同的人或者方法,聚类的结果很可能不一样;
对噪点敏感,需要提剔除噪点;
数据形状大都不会规则的球形,分类算法需要能处理特殊形状的数据;
一个聚类分析往往是基于点与点之间的距离关系展开的。
K-means
只能对球状数据做出处理;
点与点之间的距离计算— 勾股定理
距离间的标准化—
欧几里得距离公式: √(q&∑_█(i=1@)n▒〖|xi-yi|q〗)
相关系数r: coefficient of associon
方差:variance
标准差: standard deviation
指标标准化(降低大量级字段权重占比—抵消字段量级上的差异带来的权重分配不公) x1= (x-μ)/σ ( x 为数据集中原数,x1为x标准化后的数,μ为x同类数的均值,σ为x同类数的标准差)
聚类结果好坏的判断:–轮廓系数
计算公式:
S(i)= b(i) –a(i) / max{b(i),a(i)}
其中:
a(i)为点到本簇所有点的平均距离
b(i)为点到其他簇所有点的平均距离
所有点的轮廓系数堆积起来构成的图叫做 堆积图;
(我我们希望点的轮廓系数越小越好,说明分类的结果好 )
K_Means 最常用的聚类算法:
算法逻辑如下:
选择k个初始质心,初始质心随机选择即可,每一个质心为一个类;
把每个观测指标派到离他最近的质心,与质心形成新的类;
重新计算每个类的质心,所谓质心就是一个类中所有观测的平均向量(这里称为
向量,是因为每一个观测都包含很多变量,所以我们把一个观测视为一个多维向
量,维数由变量数决定);
重复2和3
直到质心不在发生变化或者到达最大迭代次数。
最难点:如何选择质心数
分类次数的最大值: 防止死循环的产生(25)
算法的局限性:
初始质心的选择特别重要,往往需要通过反复测试找到最优解;
只适合[球形]数据;
遇事不决summary
Kmeans实际案例:
<- 表示赋值
$ 表示
iris2<-iris[,1:4]
行数不变,取原来数据的1-4列
iris.kmeans<-kmeans(iris2,3)
分三类: 鸢尾花 只有三类;聚合一下花,花瓣的宽度和长度
iris.kmeans
table(iris$Species,iris.kmeans$cluster)
我们通过这种方法分类的结果和原数据集中分类的结果差异有多大
plot(iris2$Speal.length,iris2$sepal.Width