【小白学机器学习22】 多变量分析:相关性分析,多变量回归,最小二乘法ols

目录

1 相关的概念名词:

1.1 双变量分析与单因素分析

1.2 变化

1.3 共变 和 相关分析 Correlation analysis

1.4 回归分析 Regression analysis

1.5 相干和相关

1.5.1 相干relevant 

1.5.2 相关Correlation

2  双变量分析

3 相关分析

3.1 是否相关

3.2 相关的关系(相关的方向)

3.3 相关的强度,用相关系数R衡量

3.4 相关的显著度(显著度!=强度)

4  回归分析

4.1 定义:什么是回归分析?

4.2 回归分析种类很多

4.3  如果只有1个维度/ 1个变量的数据,进行预测一定是 平均值预测的总体误差更小(总体更准确)

4.4  因果分析/回归分析,比正态分布的均值的预测更准

4.4.1 详细见下图

4.5 非标准回归 和标准回归系数

4.6 OLS的详细

4.6.1 OLS名字 ordinary Least Square

5 多变量/多因子回归

5.1 多变量分析

5.1.1 多变量线性回归

5.1.2 研究内容

5.2 多元线性回归和 一元线性回归的比较

5.3 净影响:偏回归系数/净回归系数 partial correlation

5.4 用这个著名图去理解:净回归系数

5.5 多个因素影响的合力


1 相关的概念名词:

1.1 双变量分析与单因素分析

因为本书作者很多概念名词和其他书都不一样,但是内容是可以统一的。

但是有些地方还是有细微的差别

相同的地方

  • 双变量分析,2个变量
  • 单因素分析,2个变量。1个自变量和1个因变量。

不同的地方

  • 双变量分析,和单因素分析有一定差别
  • 双变量分析:
  1. 单自变量-单因变量的回归
  2. 两个变量的相关分析
  • 单因素分析(一定是回归分析)
  1. 单因素回归(单自变量-单因变量的回归)

1.2 变化

  • 变化 vary 
  • 共变 convary,两个变量一起变化

1.3 共变 和 相关分析 Correlation analysis

  • 共变 convary,
  • 共变的方式,共变的强度,就是相关分析研究的内容

  • Correlation analysis
  • 目标:两个变量是否一起变化 convery
  • 不关心:谁先谁后,谁影响谁,谁是因果。只关心两者是否一起变化。

1.4 回归分析 Regression analysis

  • 预设:有自变量,因变量
  • 预设逻辑: 因果关系。
  • 目标: 看自变量的变化,是否能引起因变量的变化

1.5 相干和相关

1.5.1 相干relevant 

  • 辩证法:万事万物普遍联系,
  • 可能并不直接联系,比如有些因素通过共线性得其他因素,对因变量产生影响。
  • 相干,只是一个终极本质上存在相干

1.5.2 相关Correlation

  • 数学上,统计上的相关关系
  • 相关,在理论上相关,模型上相关,数据上相关
  • Correlation
  • Correlated
  • 主要是数据上,两者是否存在关系(相关关系,或者因果关系)
  1. 相关关系
  2. 因果关系
  3. 其他

2  双变量分析

  • 从一个变量内部的分析变成2个变量,
  • 如果是相关关系,是研究convary,相关的正负+-类型和强度
  • 如果是因果分析,回归分析,逻辑上是变了模型,2个变量,1个自变量,一个因变量

3 相关分析

相关:Correlation,Correlated 在理论上相关,模型上相关,数据上相关,数学上和统计上相关

3.1 是否相关

  • 相关,不相关

3.2 相关的关系(相关的方向)

  • 相关得方向:
  • 相关系数:标准化后得系数。 因变量B/自变量A=相关系数,相当于以A为单位。
  1. 正相关:相关系数0-1之间。
  2. 负相关:相关系数0—1之间
  3. 不相关,没有系统得关系,只有看起来随机性得关系

3.3 相关的强度,用相关系数R衡量

  • 相关的强度:相关系数的值的大小
  • 相关系数R的范围:-1 ~1 之间
  1. 0表示不相关
  2. -1到0,负相关
  3. 0到1,正相关

3.4 相关的显著度(显著度!=强度)

  • 相关的显著度: 是否有系统性,非随机的关联?
  • 如果没有,则是不显著
  • 如果有,则是相关关系显著
  • 显著度怎么得到?
  1. 需要用假设检验才能获得
  2. 显著度一般情况下就是概率。

4  回归分析

4.1 定义:什么是回归分析?

回归分析的目标:IV是否是DV的原因?

  • 自变量: IV,  Independent variable
  • 因变量:DV  ,dependent variable

 在统计学中,回归分析(regression analysis)指的是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。

回归分析

按照涉及的变量的多少,分为一元回归和多元回归分析

按照因变量的多少,可分为简单回归分析和多重回归分析;

按照自变量和因变量之间的关系类型,可分为线性回归分析和非线性回归分析。 [1]

来自百科

4.2 回归分析种类很多

  • 一元的,多元的。也就是单因素的。多因素的
  • 线性的,非线性的
  • 简单的,多重线性回归?

4.3  如果只有1个维度/ 1个变量的数据,进行预测一定是 平均值预测的总体误差更小(总体更准确)

  • 正态分布时,如果不引入其他因素,如何预测将来的值最准呢?
  • 用平均值预测,最终,总TSS误差和最小。
  • 总TSS=用每个值去预测将来,产生的误差,之SUM

下面是我自己搞的一个简单推理过程

  • 数据只有1维的情况下
  • 平均值一定是预测值总体预测最小的1维预测
  • 经过上述比较,证明了,用mean预测下一个值,总体误差和一定最小。                    
  • 但是要理解,这是就总体而言,不是针对某一个具体的可能值, 而是所有可能的值都可能出现时的 总误差和最小                    

4.4  因果分析/回归分析,比正态分布的均值的预测更准

现在问题来了,如果可以引入其他变量帮助预测是否可以预测得更准?

  • 如果可以引入其他值,是否可以预测得更准?
  • 可以,最小二乘法OLS,就是干这个事情的
  • OLS得到的预测值,一定可以做到比 用mean预测的总误差和tss更小!

4.4.1 详细见下图

  • 横轴:自变量,
  • 纵轴:因变量,
  • 纵轴上画一条与横轴平行的线,就是均值线,应该是最小的TSS
  • 还可以画多条与横轴平行的线,非均值线,应该总误差和TSS会变大
  • 一条斜线,线性预测,就是线性回归的结果,这个OLS的误差和变小。
  • 线性回归里, RSS/TSS,其实是以TSS均值的0因素分析为基础的。

4.5 非标准回归 和标准回归系数

  • Unstandardlized coefficients,  非标准化回归系数,够用。反应的就是 因变量/自变量的系数,自变量 每变化1单位变化(1就是单位变化,如果想是5作为单位变化,继续/5,最后再还原),因变量变化多少。
  • standardlized coefficients,以各种标准差为单位。就是自变量每变化1个单位的自己的标准差,因变量变化多少个单位的自己的标准差长度。
  • 建模,简单的来说,就是写函数,列方程等等。

4.6 OLS的详细

4.6.1 OLS名字 ordinary Least Square

  • O ordinary
  • Least 最小
  • Square  sum of squares
  • 回归系数的显著度检测,就是指 系统的 systematic,非随机的non-random
  • 因此才显著,值得研究去关注,是显著的自变量

5 多变量/多因子回归

5.1 多变量分析

5.1.1 多变量线性回归

  • 多变量分析,一般都是,多变量的回归
  • 而多变量的回归,一般也都是指多变量的线性回归。
  • 肯定还存在其他的多变量方法,这里主要看的是多变量回归。

5.1.2 研究内容

  • 1因1果
  • 多因1果

不研究

  • 1因多果

为什么

  • 包括函数,映射也是一样的定义,只看满射,单射,双射等等。

5.2 多元线性回归和 一元线性回归的比较

  • 相同:    回归分析,都是基于有因果关系的前提
  • 不相同:几个自变量之间,必须是独立的影响因变量。也就是自变量之间,不存在共线性。

5.3 净影响:偏回归系数/净回归系数 partial correlation

  • partial correlation
  • Partial regression coefficient 
  • 每个因素的参数,偏回归系数,净回归系数---类偏导数/净导数的意思。
  • 定义:每个变量的净回归系数就是假设其他因素不变时,这个因素/自变量的变化引起的因变量变化的系数(净影响)!

5.4 用这个著名图去理解:净回归系数

  • 多因素线性回归里的单个自变量的偏回归系数 != 单因素线性回归里的自变量的系数
  • 因为多因素线性回归里的单个自变量的偏回归系数,不计算多个自变量,对因变量都有的那部分公共影响!
  • 偏回归系数=每个因素/自变量的(单独的)变化引起的因变量变化的系数(净影响)(不包含和其他因素的共同影响部分)

  • 2个自变量 IV1  IV2
  • 1个因变量,DV
  • 3个圆交叉。

  • b 是3者交叉的
  • 第1个模型方程:单因素回归分析1
  • a+b,是自变量1的回归系数

  • 第2个模型方程:单因素回归分析2
  • c+b,是自变量2的回归系数

  • 第3个模型方程:
  • 而如果是多因素回归
  • a,是自变量1的净影响,回归系数
  • c,是自变量2的净影响,回归系数
  • b,是自变量1和2共同作用的的影响,不计入各自的净影响
  • 所以,多因素线性回归里的单个自变量的系数 != 单因素线性回归里的自变量的系数

5.5 多个因素影响的合力

  • 多因素回归会有回归系数,R,R**2
  • 这个判断系数,告诉我们的是多个因子合力的影响的评判
  • 而不是某个因子的净影响。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值