统计学基本知识 #datawhale 任务四

线性回归

平方误差

每个点同回归直线的竖直距离
S E l i n e = ∑ i = 1 n ( y i − ( m x i + b ) ) 2 SE_{line} = \sum^n_{i=1}(y_i -(mx_i + b))^2 SEline=i=1nyi(mxi+b)2
可以看作直线对数据点拟合程度的度量

设回归直线 y = m x + b y = mx +b y=mx+b
由公式拆分推导可得:
在这里插入图片描述

决定系数

概念:y的波动程度有多少百分比能被x的波动程度所描述
在这里插入图片描述

协方差

概念:两随机变量离各自均值之积的期望值,同步程度决定协方差的大小
在这里插入图片描述

卡方分布

假设 X i − N ( 0 , 1 ) X_i - N(0,1) XiN(0,1), i = 1 , 2 , 3 , . . . . . . . , n i =1,2,3,.......,n i=1,2,3,.......,n,且相互独立。令变量 Q = ∑ i = 1 n X i 2 Q = \sum^n_{i=1} X^2_i Q=i=1nXi2,则Q服从自由度为n的卡方分布。

皮尔逊卡方检验

X 2 = ∑ 【 ( 实 际 频 数 − 理 论 频 数 的 ) 2 】 / 理 论 频 数 X^2=∑{【(实际频数-理论频数的)^2】/理论频数} X2=2/

每个数据点注意标准化,即除以理论频数

自由度的计算:
n个数据点只有n-1个自由度,是因为根据n-1个数据点可以推算出第n个数据的信息(以存取的信息量为准)

列联表卡方检验

自由度: ( 行 数 − 1 ) ∗ ( 列 数 − 1 ) (行数-1)*(列数-1) 11

方差分析

分析数据总波动有多少是由于组内波动造成的,有多少是由于组外波动造成的
SST:方差的分子部分,自由度为 m ∗ n − 1 m *n-1 mn1
SSB:组内平方和,概念为总波动是有多少因为组均值之间的波动,自由度为m-1
SSW:组内平方和,不同分组内数据对组均值差的平方和之和,自由度为 m ∗ ( n − 1 ) m*(n-1) m(n1)
由此可发现
SST的自由度=SSB自由度+SSW自由度
说明数据的总波动分解为两个分量的波动之和,一个组内,一个组间。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值