机器学习数学基础

机器学习数学基础

高数

1、偏导数

几何意义:
∂ f ∂ x ∣ x = x 0 , y = y 0 = d d x f ( x , y 0 ) ∣ x = x 0 是曲线 { z = f ( x , y )   y = y 0 是在点 M 0 处的切线 M 0 T x 对 x 轴的斜率 \frac{∂f}{∂x}\bigg|_{x=x0,y=y0}=\frac{d}{dx}f(x,y_0)\bigg|x=x_0是曲线\begin{equation} \begin{cases} z=f(x,y) \ \\ y=y0& \end{cases} \end{equation} 是在点M0处的切线M_0T_x对x轴的斜率 xf x=x0,y=y0=dxdf(x,y0) x=x0是曲线{z=f(x,y) y=y0是在点M0处的切线M0Txx轴的斜率

∂ f ∂ y ∣ x = x 0 , y = y 0 = d d y f ( x 0 , y ) ∣ y = y 0 是曲线 { z = f ( x , y ) y = y 0 是在点 M 0 处的切线 M 0 T x 对 x 轴的斜率 \frac{∂f}{∂y}\bigg|_{x=x0,y=y0}=\frac{d}{dy}f(x_0,y)\bigg|y=y_0是曲线\begin{equation} \begin{cases} z=f(x,y)\\ y=y0& \end{cases} \end{equation} 是在点M0处的切线M_0T_x对x轴的斜率 yf x=x0,y=y0=dydf(x0,y) y=y0是曲线{z=f(x,y)y=y0是在点M0处的切线M0Txx轴的斜率



2、梯度

方向导数

z = f ( x , y ) ∣ P P ′ ∣ = ρ = ( △ x ) 2 + ( △ y ) 2 △ z = f ( x + △ x , y + △ y ) − f ( x , y )   如果函数的增量,与这两点距离的比例存在,则称此为在 P 点沿着 L 的方向导数 ∂ f ∂ l = lim ⁡ ρ → 0 f ( x + △ x , y + △ y ) − f ( x , y ) ρ z=f(x,y)\\ |PP'|=ρ=\sqrt{(△x)^2+(△y)^2}\\ △z=f(x+△x,y+△y)-f(x,y)\\ \ \\ 如果函数的增量,与这两点距离的比例存在,则称此为在P点沿着L的方向导数\\ \frac{∂f}{∂l}=\displaystyle\lim_{ρ \rightarrow 0}\frac{f(x+△x,y+△y)-f(x,y)}{ρ} z=f(x,y)PP=ρ=(x)2+(y)2 z=f(x+x,y+y)f(x,y) 如果函数的增量,与这两点距离的比例存在,则称此为在P点沿着L的方向导数lf=ρ0limρf(x+x,y+y)f(x,y)

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ES4HkFfG-1658549098684)(C:\Users\lenovo\AppData\Roaming\Typora\typora-user-images\image-20220708161302935.png "alt="image-20220708161332511" style="zoom:20%;")]




梯度





3.微积分

牛顿莱布尼茨公式

如果F(x)是连续函数f(x)在区间[ a, b ]上的一个原函数,则
∫ a b f ( x ) d x = F ( b ) − F ( a ) \int_{a}^{b} f(x)dx=F(b)-F(a) abf(x)dx=F(b)F(a)

∫ a b f ( x ) d x = f ( φ ) ( b − a ) = F ‘ ( φ ) ( b − a ) = F ( b ) − F ( a ) 积分中值定理 微分中值定理 \int_{a}^{b} f(x)dx=f(φ)(b-a) =F^‘(φ)(b-a)=F(b)-F(a) \\ 积分中值定理 \qquad 微分中值定理 abf(x)dx=f(φ)(ba)=F(φ)(ba)=F(b)F(a)积分中值定理微分中值定理


第一中值定理

如果函数f(x)在闭区间[ a, b ]上连续,则在积分区间[ a , b ]上至少存在一个点φ,使得
∫ a b f ( x ) d x = f ( φ ) ( b − a ) ( a ≤ φ ≤ b ) \int_{a}^{b} f(x)dx=f(φ)(b-a) \qquad (a≤φ≤b) abf(x)dx=f(φ)(ba)(aφb)



4.泰勒公式

  • 用简单的熟悉的多项式来近似代替复杂的函数

由微分可得:
f ( x ) = f ( x 0 ) + f ’ ( x 0 ) ( x − x 0 ) + o ( x − x 0 ) f(x)=f(x_0)+f^{’}(x_0)(x-x_0)+o(x-x_0) f(x)=f(x0)+f(x0)(xx0)+o(xx0)
近似可得
f ( x ) ≈ f ( x 0 ) + f ’ ( x 0 ) ( x − x 0 ) f(x)≈f(x_0)+f^{’}(x_0)(x-x_0) f(x)f(x0)+f(x0)(xx0)


泰勒多项式
P n ( x ) = f ( x 0 ) + f ’ ( x 0 ) ( x − x 0 ) + f ’’ ( x 0 ) 2 ! ( x − x 0 ) 2 + . . . + f n ( x 0 ) n ! ( x − x 0 ) n P_n(x)=f(x_0)+f^{’}(x_0)(x-x_0)+\frac{f^{’’}(x_0)}{2!}(x-x_0)^2+...+\frac{f^n(x_0)}{n!}(x-x_0)^n Pn(x)=f(x0)+f(x0)(xx0)+2!f’’(x0)(xx0)2+...+n!fn(x0)(xx0)n
称为f(x)在x0关于(x-x0)的n阶泰勒多项式


麦克劳林公式

当x0=0时,即为麦克劳林公式
f ( x ) = f ( 0 ) + f ’ ( 0 ) x + f ’’ ( 0 ) 2 ! x 2 + . . . + f n ( 0 ) n ! x n + f n + 1 ( θ x ) ( n + 1 ) ! ( 0 < θ < 1 ) f(x)=f(0)+f^{’}(0)x+\frac{f^{’’}(0)}{2!}x^2+...+\frac{f^n(0)}{n!}x^n+\frac{f^{n+1}(θx)}{(n+1)!}\qquad (0<θ<1) f(x)=f(0)+f(0)x+2!f’’(0)x2+...+n!fn(0)xn+(n+1)!fn+1(θx)(0<θ<1)

近似可得
f ( x ) ≈ f ( 0 ) + f ’ ( 0 ) x + f ’’ ( 0 ) 2 ! x 2 + . . . + f n ( 0 ) n ! x n f(x)≈f(0)+f^{’}(0)x+\frac{f^{’’}(0)}{2!}x^2+...+\frac{f^n(0)}{n!}x^n f(x)f(0)+f(0)x+2!f’’(0)x2+...+n!fn(0)xn

泰勒公式就是用简单的多项式代替复杂的曲线,对于后边每一项的x要取x^n是因为如果x是低阶的,在离x0很近的地方,多项式和函数误差很小,但是离得远了,误差会变大,所以需要用高阶来逼近;对于阶乘,对于一个复杂函数,给我们的感觉时在当前点,低阶 项能更好的描述当前点附近,对于之后的走势就越来 越依靠高阶的了,因此除以阶乘。



5.拉格朗日乘子法

问题: 求函数z=f(x,y)在条件φ(x,y)=0条件下的极值。

构造函数: F(x,y)=f(x,y)+λφ(x,y),其中λ为拉格朗日乘数

其中(x,y)就是极值点坐标


自变量多与两个条件下

问题: 函数u=f(x,y,z,t)在条件φ(x,y,z,t)=0,ψ(x,y,z,t)下的极值。

构造函数: F(x,y,z,t)=f(x,y,z,t)+λ1φ(x,y,z,t)+λ2φ(x,y,z,t)

其中λ1、λ2均为拉格朗日乘数,同样通过偏导为0以及约束条件求解




线代

1.线性代数基础


行列式

D = ∣ a 11 a 12 a 21 a 22 ∣ D = ∣ a 11 a 12 a 13 a 21 a 22 a 23 a 31 a 32 a 33 ∣ = a 11 a 22 a 33 + a 12 a 23 a 31 + a 13 a 21 a 32 − a 13 a 22 a 31 − a 12 a 21 a 33 − a 11 a 23 a 32 D=\begin{equation}\left|\begin{matrix} a_{11} & a_{12}\\ a_{21} & a_{22} \end{matrix}\right| \end{equation} \\ \\ \\ D={\left| \begin{array}{ccc} a_{11}& a_{12}& a_{13} \\a_{21} & a_{22}& a_{23} \\a_{31} & a_{32}& a_{33}\end{array} \right |}=a_{11}a_{22}a_{33}+a_{12}a_{23}a_{31}+a_{13}a_{21}a_{32}-a_{13}a_{22}a_{31}-a_{12}a_{21}a_{33}-a_{11}a_{23}a_{32} D= a11a21a12a22 D= a11a21a31a12a22a32a13a23a33 =a11a22a33+a12a23a31+a13a21a32a13a22a31a12a21a33a11a23a32



矩阵

A = [ a 11 a 12 . . . a 1 n a 21 a 22 . . . a 2 n . . . . . . . . . . . . a n 1 a n 2 . . . a n n ] A={ \left[ \begin{array}{ccc} a_{11}& a_{12} & ... & a_{1n} \\ a_{21}& a_{22} & ... & a_{2n}\\ ...& ... & ... & ... \\ a_{n1}& a_{n2} & ... & a_{nn}\end{array} \right ]} A= a11a21...an1a12a22...an2............a1na2n...ann

A = [ a 11 a 12 . . . a 1 n 0 a 22 . . . a 2 n . . . . . . . . . . . . 0 0 . . . a n n ] 上三角矩阵    A = [ a 11 0 . . . 0 a 21 a 22 . . . 0 . . . . . . . . . . . . a n 1 a n 2 . . . a n n ] 下三角矩阵   A = [ a 11 0 . . . 0 a 0 a 22 . . . 0 . . . . . . . . . . . . a 0 a 0 . . . a n n ] 对角阵   A = [ 1 0 . . . 0 0 1 . . . 0 . . . . . . . . . . . . 0 0 . . . 1 ] 单位矩阵 A={ \left[ \begin{array}{ccc} a_{11}& a_{12} & ... & a_{1n} \\ 0& a_{22} & ... & a_{2n}\\ ...& ... & ... & ... \\ 0& 0 & ... & a_{nn}\end{array} \right ]} \\ 上三角矩阵 \\\ \ \\ A={ \left[ \begin{array}{ccc} a_{11}& 0 & ... & 0 \\ a_{21}& a_{22} & ... & 0\\ ...& ... & ... & ... \\ a_{n1}& a_{n2} & ... & a_{nn}\end{array} \right ]} \\ 下三角矩阵 \\ \ \\ A={ \left[ \begin{array}{ccc} a_{11}& 0 & ... & 0 \\ a_{0}& a_{22} & ... & 0\\ ...& ... & ... & ... \\ a_{0}& a_{0} & ... & a_{nn}\end{array} \right ]} \\ 对角阵 \\ \ \\ A={ \left[ \begin{array}{ccc} 1& 0 & ... & 0 \\ 0& 1 & ... & 0\\ ...& ... & ... & ... \\ 0& 0 & ... & 1\end{array} \right ]} \\ 单位矩阵 A= a110...0a12a22...0............a1na2n...ann 上三角矩阵  A= a11a21...an10a22...an2............00...ann 下三角矩阵 A= a11a0...a00a22...a0............00...ann 对角阵 A= 10...001...0............00...1 单位矩阵


  • 两个矩阵行列数相同的时候称为同型矩阵
  • 在同型的前提下,并且各个元素相等,这就是矩阵相等



矩阵基本运算

( A B ) C = A ( B C ) λ ( A B ) = ( λ A ) B = A ( λ B ) A ( B + C ) = A B + A C ( B + C ) A = B A + C A (AB)C=A(BC) \\ λ(AB)=(λA)B=A(λB)\\ A(B+C)=AB+AC\\ (B+C)A=BA+CA (AB)C=A(BC)λ(AB)=(λA)B=A(λB)A(B+C)=AB+AC(B+C)A=BA+CA



方程式

1、齐次线性方程组的两个解的和仍是齐次线性方程组的一组解。

2、齐次线性方程组的解的k倍仍然是齐次线性方程组的解。

3、齐次线性方程组的系数矩阵秩r(A)=n,方程组有唯一零解。

4、齐次线性方程组的系数矩阵秩r(A)<n,方程组有无数多解


1)当方程组的系数矩阵的秩与方程组增广矩阵的秩相等且均等于方程组中未知数个数n的时候,方程组有唯一解;

2)当方程组的系数矩阵的秩与方程组增广矩阵的秩相等且均小于方程组中未知数个数n的时候,方程组有无穷多解;

3)当方程组的系数矩阵的秩小于方程组增广矩阵的秩的时候,方程组无解。



矩阵转置

( A T ) T = A ( A + B ) T = A T + B T ( λ A ) T = λ A T ( A B ) T = B T A T − − > ( A 1 A 2 . . . A N ) T = A N T . . . A 2 T A 1 T (A^T)^T=A \\ (A+B)^T=A^T+B^T\\ (λA)^T=λA^T\\ (AB)^T=B^TA^T-->(A_1A_2...A_N)^T=A_N^T...A_2^TA_1^T (AT)T=A(A+B)T=AT+BT(λA)T=λAT(AB)T=BTAT>(A1A2...AN)T=ANT...A2TA1T


对称矩阵

如果满足A^T=A,那么A就是对称矩阵

a(i,j)=a(j,i)


逆矩阵

A为n阶方阵,如果存在n阶方阵B,使得:AB=BA=E,则B为A的逆矩阵,B=A^-1

可逆前提:
( A T ) − 1 = ( A − 1 ) T ( A − 1 ) − 1 = A ( λ A ) − 1 = 1 λ A − 1 ( A B ) − 1 = B − 1 A − 1 (A^T)^{-1}=(A^{-1})^T\\ (A^{-1})^{-1}=A\\ (λA)^{-1}=\frac{1}{λ}A^{-1}\\ (AB)^{-1}=B^{-1}A^{-1} (AT)1=(A1)T(A1)1=A(λA)1=λ1A1(AB)1=B1A1


矩阵的秩

A = [ 1 1 3 1 0 2 − 1 4 0 0 0 5 0 0 0 0 ]       行向量组 a 1 = ( 1 , 1 , 3 , 1 ) , a 2 = ( 0 , 2 , − 1 , 4 ) a 3 = ( 0 , 0 , 0 , 5 ) , a 4 = ( 0 , 0 , 0 , 0 )   求其极大线性无关组假设有: k 1 a 1 + k 2 a 2 + k 3 a 3 = 0 解得 k 1 = k 2 = k 3 = 0. 即 a 1 , a 2 , a 3 线性无关,秩为 3 A={ \left[ \begin{array}{ccc} 1& 1 & 3 & 1 \\ 0& 2 & -1 & 4\\ 0& 0 & 0 & 5 \\ 0& 0 & 0 & 0\end{array} \right ]}\ \\ \ \\ \ \\ 行向量组a_1=(1,1,3,1),a_2=(0,2,-1,4)\\ \qquad a_3=(0,0,0,5),a_4=(0,0,0,0) \\ \ \\ 求其极大线性无关组假设有:k_1 a_1+k_2a_2+k_3a_3=0 \\ 解得k1=k2=k3=0. \qquad 即a_1,a_2,a_3线性无关,秩为3 A= 1000120031001450    行向量组a1=(1,1,3,1),a2=(0,2,1,4)a3=(0,0,0,5),a4=(0,0,0,0) 求其极大线性无关组假设有:k1a1+k2a2+k3a3=0解得k1=k2=k3=0.a1,a2,a3线性无关,秩为3



向量内积



向量正交

两两正交的非零向量组成的向量组成为正交向量组

若 a1,a2,…,ar是两两正交的非零向量,则a1,a2,…,ar 线性无关


规范正交基



2.特征值与特征向量

对于给定矩阵A,寻找一个常数λ和非零向量x,使得向量x被矩阵A作用后

所得的向量Ax与原向量x平行,并且满足Ax=λx,则λ称为A的特征值,x称为A的特征向量

A x = λ x − − > A x = λ E x − − > ( λ E − A ) x = 0 λ 为特征值, x 为特征向量 令 λ E − A = 0 ,可以求出特征值 , 进而求出特征向量 Ax=λx --> Ax=λEx --> (λE-A)x=0 \\ λ为特征值,x为特征向量 \\ 令λE-A=0,可以求出特征值,进而求出特征向量 Ax=λx>Ax=λEx>(λEA)x=0λ为特征值,x为特征向量λEA=0,可以求出特征值,进而求出特征向量

  • 特征向量定义了方向
  • 特征值定义了大小



3.SVD矩阵分解

如果我们求出了矩阵A的n个特征值λ1 ≤ λ2 ≤ ⋯ ≤ λn, 以及这n个特征值所对应的特征向量{w1,w2,⋯,wn} ,如果这n个特征向量线性无关,那么矩阵A就可以用下式的特征分解表示:

A = W Σ W − 1 其中 W = ( W 1 , W 2 , . . . , W n ) Σ = [ λ 1 λ 2 . . . λ n ] A=WΣW^{-1} \\ \\ 其中W=(W1,W2,...,W_n) \\ \\ Σ=\left[ \begin{array}{ccc} λ_1& & & \\ & λ_2 & & \\ & & ... & \\ & & & λ_n\end{array} \right ] A=WΣW1其中W=(W1,W2,...,Wn)Σ= λ1λ2...λn
一般我们会把W的这n个特征向量标准化,即满足
∣ ∣ w i ∣ ∣ 2 = 1 , 或者说 w i T w i = 1 ||w_i||_2=1,或者说w_i^{T}w_i=1 ∣∣wi2=1,或者说wiTwi=1
此时W的n个特征向量为标准正交基,
且满足 W T W = I ,即 W T = W − 1 且满足WTW=I ,即W^T=W^{-1} 且满足WTW=I,即WT=W1
此时我们称W为酉矩阵.

但是有一个局限,进行特征分解的矩阵必须是方阵,但是我们拿到的数据往往都不是方阵的形式,所以对于n×m的矩阵,如何进行特征分解?对于这个问题,SVD算法应运而生。

首先,要明确的是,一个矩阵其实就是一个线性变换,因为一个矩阵乘以一个向量后得到的向量,其实就相当于将这个向量进行了线性变换。比如说下面的一个矩阵:
在这里插入图片描述


对于不是方阵的矩阵A,需要使用SVD算法进行奇异值分解,定义A的SVD为:
A = U Σ V T A=UΣV^T A=UΣVT
其中U是一个m×m的矩阵,Σ是m×n的矩阵,除了主对角线上的元素以外,其余的元素均为零。其中主对角线上每个元素都称为奇异值,V是一个n×n的矩阵。U和V都是酉矩阵,即满足UTU=I,VTV=I,。如下图所示,其中r为矩阵A的秩。




对于奇异值,它跟我们特征分解中的特征值类似,在奇异值矩阵中也是按照从大到小排列,而且奇异值的减少特别的快,在很多情况下,前10%甚至1%的奇异值的和就占了全部的奇异值之和的99%以上的比例。也就是说,我们也可以用最大的k个的奇异值和对应的左右奇异向量来近似描述矩阵,即:
A m × n = U m × m Σ m × n V n × n T ≈ U m × k Σ k × k V k × n T 其中 k 要比 n 小很多,也就是一个大的矩阵 A 可以用三个小的矩阵 U m × k , Σ k × k , V k × n T 表示 A_{m×n}=U_{m×m}Σ_{m×n}V_{n×n}^T≈U_{m×k}Σ_{k×k}V_{k×n}^T \\ \\ 其中k要比n小很多,也就是一个大的矩阵A可以用三个小的矩阵\\ U_{m×k},Σ_{k×k},V_{k×n}^T表示 Am×n=Um×mΣm×nVn×nTUm×kΣk×kVk×nT其中k要比n小很多,也就是一个大的矩阵A可以用三个小的矩阵Um×kΣk×kVk×nT表示

推导链接:https://www.imooc.com/article/267351




概率论

离散型随机变量:
p ( x ) = p ( X = x ) f ( x i ) = p ( X = x i ) f ( x i ) = P ( X = x i ) 为离散型随机变量的概率密度函数 f ( x i ) > = 0 ∑ f ( x i ) = 1 p(x)=p(X=x) \\ f(x_i)=p(X=x_i)\\ \\ f(x_i)=P(X=x_i)为离散型随机变量的概率密度函数 \\ f(x_i)>=0\\ ∑f(x_i)=1 p(x)=p(X=x)f(xi)=p(X=xi)f(xi)=P(X=xi)为离散型随机变量的概率密度函数f(xi)>=0f(xi)=1




连续型随机变量:

X为连续随机变量,X在任意区间( a, b ] 上的概率可以表示为:
P ( a < X < = b ) = ∫ a b f ( x ) d x 其中 f ( x ) 叫做 x 的概率密度函数 P(a<X<=b)=\int_{a}^{b}f(x)dx\\ 其中f(x)叫做x的概率密度函数 P(a<X<=b)=abf(x)dx其中f(x)叫做x的概率密度函数

图a是连续型随机变量的分布函数,图b是其概率密度函数图像


简单随机取样

抽取的样本点满足两点:

  • 样本X1,X2…Xn是相互独立的随机变量
  • 样本X1,X2…Xn与总体X同分布

联合分布函数: F ( x 1 , x 2 , . . . , x n ) = ∏ i = 1 n F ( x i ) 联合概率密度: f ( x 1 , x 2 , . . . , x n ) = ∏ i = 1 n f ( x i ) 联合分布函数:F(x_1,x_2,...,x_n)=\prod \limits_{i=1}^nF(x_i) \\ 联合概率密度:f(x_1,x_2,...,x_n)=\prod \limits_{i=1}^nf(x_i) \\ 联合分布函数:F(x1,x2,...,xn)=i=1nF(xi)联合概率密度:f(x1,x2,...,xn)=i=1nf(xi)



似然函数

给定联合样本值 x 关于参数 θ 的函数: L ( θ ∣ x ) = f ( x ∣ θ ) , 其中 x 是随机变量 X 取得的值, θ 是未知的参数。   f ( x ∣ θ ) 是密度函数,表示给定 θ 下的联合密度函数   似然函数是关于 θ 的函数,而密度函数是关于 x 的函数 给定联合样本值x关于参数θ的函数:L(θ|x)=f(x|θ),其中x是随机变量X取得的值,θ是未知的参数。\\ \ \\ f(x|θ)是密度函数,表示给定θ下的联合密度函数 \\ \ \\ 似然函数是关于θ的函数,而密度函数是关于x的函数 给定联合样本值x关于参数θ的函数:L(θx)=f(xθ),其中x是随机变量X取得的值,θ是未知的参数。 f(xθ)是密度函数,表示给定θ下的联合密度函数 似然函数是关于θ的函数,而密度函数是关于x的函数


离散情况

概率密度函数:
f ( x ∣ θ ) = P 0 ( X = x ) 表示在参数 θ 下随机变量 X 取到 x 的可能性 L ( θ 1 ∣ x ) = P θ 1 ( X = x ) > P θ 2 ( X = x ) = L ( θ 2 ∣ x ) 表示在参数 θ 1 下随机变量 X 取到 x 值的可能性大于 θ 2 f(x|θ)=P_0(X=x)\\ 表示在参数θ下随机变量X取到x的可能性\\\\ L(θ_1|x)=P_{θ1}(X=x)>P_{θ2}(X=x)=L(θ_2|x)\\ 表示在参数θ1下随机变量X取到x值的可能性大于θ2 f(xθ)=P0(X=x)表示在参数θ下随机变量X取到x的可能性L(θ1x)=Pθ1(X=x)>Pθ2(X=x)=L(θ2x)表示在参数θ1下随机变量X取到x值的可能性大于θ2


连续情况

如果X是连续随机变量给定足够小的ε>0,那么其在(x-ε,x+ε)内的概率为:
P θ ( x − ε < X < x + ε ) = ∫ x − ε x + ε f ( x ∣ θ ) d x ≈ 2 ε f ( x ∣ θ ) = 2 ε L ( θ ∣ x ) P_θ(x-ε<X<x+ε)=\int_{x-ε}^{x+ε}f(x|θ)dx≈2εf(x|θ)=2εL(θ|x) Pθ(xε<X<x+ε)=xεx+εf(xθ)dx2εf(xθ)=2εL(θx)
概率表达了在给定参数θ时X=x的可能性 ; 而似然表示的是在给定样本X=x时,参数的可能性



极大似然估计

离散型样本
L ( θ ) = ∏ i = 1 n p ( x i ; θ ) L(θ)=\prod \limits_{i=1}^np(x_i;θ) L(θ)=i=1np(xi;θ)
连续型样本
L ( θ ) = ∏ i = 1 n f ( x i ; θ ) L(θ)=\prod \limits_{i=1}^nf(x_i;θ) L(θ)=i=1nf(xi;θ)
极大似然估计
L ( x 1 , x 2 . . . x n ; θ ^ ) = max ⁡ θ ∈ O L ( x x , x 2 . . . x n ; θ ) L(x_1,x_2...x_n;\hat{θ})=\max \limits_{θ∈O} L(x_x,x_2...x_n;θ) L(x1,x2...xn;θ^)=θOmaxL(xx,x2...xn;θ)

极大似然求解:

  • 构造似然函数:L(θ)
  • 对似然函数取对数:Ln L(θ)
  • 求偏导:

d L n L d θ = 0 \frac{dLnL}{dθ}=0 dθdLnL=0

  • 求解得到θ值



古典概率

定义:试验E中样本点是有限的,出现每一样本点的概率是相同
P ( A ) = A 所包含的样本点数 S 中的样本点数 P(A)=\frac{A所包含的样本点数}{S中的样本点数} P(A)=S中的样本点数A所包含的样本点数



条件概率

P(B)以试验下为条件,样本空间是 Ω

P(B|A)以A发生为条件,样本空间缩小为A

P ( B ∣ A ) = p ( A B ) p ( A ) P(B|A)=\frac{p(AB)}{p(A)} P(BA)=p(A)p(AB)



独立性

设A,B为两随机事件

若P(B|A)=P(B),即P(AB)=P(A)×P(B)

即P(A|B)=P(A)事,成A与B相互独立

设A1,A2…An为n个随机事件,若对a≤k≤n,均有
P ( A i 1 , A i 2 . . . A i k ) = ∏ j = 1 k P ( A i j ) 则称 A 1 , A 2 . . . A n 相互独立 但是两两独立并不能得出相互独立 P(A_{i1},A_{i2}...A_{ik})=\prod \limits_{j=1}^kP(A_{ij}) \\ 则称A_1,A_2...A_n相互独立 \\ 但是两两独立并不能得出相互独立 P(Ai1,Ai2...Aik)=j=1kP(Aij)则称A1,A2...An相互独立但是两两独立并不能得出相互独立



独立试验
  • 重复独立试验:在相同的条件下,将试验E重复进行,且每次试验是独立进行的即每次试验各种结果出现的概率不受其他各次试验结果的影响。

  • n重伯努利试验:若一试验的结果只有两个AĀ, 在相同的条件下, 将试验独立地重复进行n次, 则称这n次试验所组成的试验为n重复伯努利试验或伯努利概型。

P ( X = K ) = C n k ( p ) k ( 1 − p ) n − k k = 1 , 2 , 3 , . . . P(X=K)=C_{n}^{k}(p)^k(1-p)^{n-k} \qquad k=1,2,3,... P(X=K)=Cnk(p)k(1p)nkk=1,2,3,...




二维随机变量

离散型

P ( x 1 < X < x 2 , y 1 < Y < y 2 ) = F ( x 2 , y 2 ) − F ( x 2 , y 1 ) − F ( x 1 , y 2 ) + F ( x 1 , y 1 ) P(x_1<X<x_2,y_1<Y<y_2)=F(x_2,y_2)-F(x_2,y_1)-F(x_1,y_2)+F(x_1,y_1) P(x1<X<x2,y1<Y<y2)=F(x2,y2)F(x2,y1)F(x1,y2)+F(x1,y1)

性质
F ( x , y ) 分别关于 x 和 y 单调不减 0 ≤ F ( x , y ) ≤ 1 F ( x , − ∞ ) = 0 , F ( − ∞ , y ) = 0 , F ( − ∞ , − ∞ ) = 0 , F ( + ∞ , + ∞ ) = 1 F(x,y)分别关于x和y单调不减 \\ \\ 0≤F(x,y)≤1 \\ F(x, - \infty )=0, \qquad F(- \infty,y)=0, \qquad F(- \infty,- \infty)=0, \qquad F(+ \infty,+ \infty)=1 F(x,y)分别关于xy单调不减0F(x,y)1F(x,)=0,F(,y)=0,F(,)=0,F(+,+)=1


连续型

二维随机变量(X,Y)的分布函数 如果存在非负函数 f(x,y),对于任意x,y有:
F ( x , y ) = ∫ − ∞ y ∫ − ∞ x f ( u , v ) d u d v 称 ( X , Y ) 为连续型的二维随机变量, f ( x , y ) 为其概率密度 F(x,y)=\int_{- \infty}^{y}\int_{- \infty}^{x}f(u,v)dudv \\ 称(X,Y)为连续型的二维随机变量,f(x,y) 为其概率密度 F(x,y)=yxf(u,v)dudv(X,Y)为连续型的二维随机变量,f(x,y)为其概率密度



边缘分布

边缘分布函数
二维随机变量 ( X , Y ) 作为整体,有分布函数 F ( x , y ) 。其中, X 和 Y 都是随机变量,它们的分布函数记为 F X ( x ) , F Y ( y ) , 称为边缘分布函数。 在分布函数 F ( x , y ) 中另 y − − > + o o ,就能得到 F X ( x ) F X ( x ) = P { X ≤ x } = P { X ≤ x , Y < + o o } = F ( x , + o o ) 同理得: F Y ( y ) = P { Y ≤ y } = F ( + o o , y ) 二维随机变量(X,Y)作为整体,有分布函数F(x,y)。其中, X和Y都是随机变量,它们的分布函数记为F_X(x),F_Y(y), 称为边缘分布函数。\\ \\ 在分布函数F(x,y)中另y-->+oo,就能得到F_X(x)\\\\ F_X(x)=P\{X≤x\}=P\{X≤x,Y<+oo\}=F(x,+oo)\\\\ 同理得:F_Y(y)=P\{Y≤y\}=F(+oo,y) 二维随机变量(X,Y)作为整体,有分布函数F(x,y)。其中,XY都是随机变量,它们的分布函数记为FX(x),FY(y),称为边缘分布函数。在分布函数F(x,y)中另y>+oo,就能得到FX(x)FX(x)=P{Xx}=P{Xx,Y<+oo}=F(x,+oo)同理得:FY(y)=P{Yy}=F(+oo,y)



离散型边缘分布


连续型边缘分布

对于连续型随机变量(X,Y),概率密度为f(x,y)
X , Y 的边缘概率密度为: f X ( x ) = ∫ − o o + o o f ( x , y ) d y f Y ( y ) = ∫ − o o + o o f ( x , y ) d x F X ( x ) = F ( x , + 00 ) = ∫ − o o x [ ∫ − o o + o o f ( t , y ) d y ] d t = ∫ − o o x f X ( t ) d t F Y ( y ) = F ( + o o , y ) = ∫ − o o y [ ∫ − o o + o o f ( x , t ) d x ] d t = ∫ − o o y f Y ( t ) d t X,Y的边缘概率密度为:f_X(x)=\int_{-oo}^{+oo}f(x,y)dy \\ \qquad \qquad \qquad\qquad f_Y(y)=\int_{-oo}^{+oo}f(x,y)dx \\\\ F_X(x)=F(x,+00)=\int_{-oo}^{x}\bigg[\int_{-oo}^{+oo}f(t,y)dy\bigg]dt=\int_{-oo}^{x}f_X(t)dt\\\\ F_Y(y)=F(+oo,y)=\int_{-oo}^{y}\bigg[\int_{-oo}^{+oo}f(x,t)dx\bigg]dt=\int_{-oo}^{y}f_Y(t)dt X,Y的边缘概率密度为:fX(x)=oo+oof(x,y)dyfY(y)=oo+oof(x,y)dxFX(x)=F(x,+00)=oox[oo+oof(t,y)dy]dt=ooxfX(t)dtFY(y)=F(+oo,y)=ooy[oo+oof(x,t)dx]dt=ooyfY(t)dt



期望

离散型
离散型随机变量 X 的分布律为: P ( X = x k ) = p k k = 1 , 2... 若级数 ∑ k = 1 o o x k p k 绝对收敛,则称其为随机变量 X 的数学期望 , E ( X ) = ∑ k = 1 o o x k p k 离散型随机变量X的分布律为:P(X=x_k)=p_k \qquad k=1,2... \\ 若级数\sum \limits_{k=1}^{oo}x_kp_k 绝对收敛,则称其为随机变量X的数学期望,E(X)=\sum \limits_{k=1}^{oo}x_kp_k 离散型随机变量X的分布律为:P(X=xk)=pkk=1,2...若级数k=1ooxkpk绝对收敛,则称其为随机变量X的数学期望,E(X)=k=1ooxkpk

连续型
连续型随机变量 X 的概率密度为 f ( x ) ,若积分 ∫ − o o + o o x f ( x ) d x 绝对收敛则称积分的值 ∫ − o o + o o x f ( x ) d x 为随机变量 X 的数学期望。 E ( X ) = ∫ − o o + o o x f ( x ) d x 连续型随机变量X的概率密度为f(x) ,若积分 \int_{-oo}^{+oo}xf(x)dx绝对收敛 则称积分的值\int_{-oo}^{+oo}xf(x)dx 为随机变量X的数学期望。 \\ E(X)=\int_{-oo}^{+oo}xf(x)dx 连续型随机变量X的概率密度为f(x),若积分oo+ooxf(x)dx绝对收敛则称积分的值oo+ooxf(x)dx为随机变量X的数学期望。E(X)=oo+ooxf(x)dx


二维情况

离散型
离散型:若 ( X , Y ) − P { X = x i , Y = y j } = p i j , i , j = 1 , 2 , … , 则 Z = g ( X , Y ) 的期望 E ( Z ) = E [ g ( X , Y ) ] = ∑ j = 1 o o ∑ i = 1 o o g ( x i , y j ) p i j 离散型:若 (X, Y) - P\{X=x_i ,Y=y_j\}= p_{ij}, \qquad i, j=1, 2, … , 则Z= g(X,Y)的期望\\ E(Z)=E[g(X,Y)]=\sum \limits_{j=1}^{oo}\sum \limits_{i=1}^{oo}g(x_i,y_j)p_{ij} 离散型:若(X,Y)P{X=xi,Y=yj}=pij,i,j=1,2,,Z=g(XY)的期望E(Z)=E[g(X,Y)]=j=1ooi=1oog(xi,yj)pij

连续型
若二维连续型随机变量 ( X , Y ) 的概率密度为: z = g ( x , y ) 设 ∫ − o o + o o ∫ − o o + o o g ( x , y ) f ( x , y ) d x d y 绝对收敛,则有 E ( Z ) = E ( g ( X , Y ) ) = ∫ − o o + o o ∫ − o o + o o g ( x , y ) f ( x , y ) d x d y 若二维连续型随机变量(X,Y)的概率密度为:z = g(x, y)\\\\ 设\int_{-oo}^{+oo}\int_{-oo}^{+oo}g(x,y)f(x,y)dxdy绝对收敛,则有\\ E(Z)=E(g(X,Y))=\int_{-oo}^{+oo}\int_{-oo}^{+oo}g(x,y)f(x,y)dxdy 若二维连续型随机变量(X,Y)的概率密度为:z=g(x,y)oo+oooo+oog(x,y)f(x,y)dxdy绝对收敛,则有E(Z)=E(g(X,Y))=oo+oooo+oog(x,y)f(x,y)dxdy


数学期望的性质

  • 设C是常数,则E©=C
  • 设X是一个随机变量,C是常数,则有E(CX)=CE(X)
  • 设X,Y是两个随机变量,则有E(X+Y)=E(X)+E(Y),则有E(aX+bY+c)=aE(X)+bE(y)+c
  • 设X,Y是相互独立的随机变量,则有E(XY)=E(X)E(Y)



方差

数学期望反映了随机变量的取值水平,衡量随机变量相对于数学期望的分散程度则的另一个数字特征
X 为随机变量,如果 E [ X − E ( X ) ] 2 存在,则称其为 X 的方差,记作 D ( X ) D ( X ) = E [ X − E ( X ) ] 2 = E ( x 2 ) − [ E ( x ) ] 2 X为随机变量,如果E[X-E(X)]^2 存在,则称其为X的方差,记作D(X) \\ D(X)=E[X-E(X)]^2=E(x^2)-[E(x)]^2 X为随机变量,如果E[XE(X)]2存在,则称其为X的方差,记作D(X)D(X)=E[XE(X)]2=E(x2)[E(x)]2



大数定理
  • 在试验不变的条件下,重复试验多次,随机事件的频率近似于它的概率
  • 小的样本试验不足以以偏概全因为有一些局限



马尔科夫不等式

P ( X ≥ a ) ≤ E ( X ) a X ≥ 0 , a > 0 P(X≥a)≤\frac{E(X)}{a} \qquad X≥0,a>0\\ P(Xa)aE(X)X0,a>0



切比雪夫不等式

P { ∣ X − E ( X ) ∣ ≥ ε } ≤ δ 2 ε 2 P { ∣ X − E ( X ) ∣ < ε } ≥ 1 − δ 2 ε 2   推导:利用马尔科夫不等式    将 ∣ X − μ ∣ 带入马尔科夫不等式 P ( X ≥ a ) ≤ E ( X ) a   可得 P ( ∣ X − μ ∣ ≥ a ) ≤ E ( ∣ X − μ ∣ ) a , 即 P ( ( X − μ ) 2 ≥ a 2 ) ≤ E ( ( X − μ ) 2 ) a 2 = δ 2 a 2 P\bigg\{\big|X-E(X)\big|≥ε\bigg\}≤\frac{δ^2}{ε^2} \qquad P\bigg\{\big|X-E(X)\big|<ε\bigg\}≥1-\frac{δ^2}{ε^2}\\\ \\ 推导:利用马尔科夫不等式\ \\ \ \\ 将|X-μ|带入马尔科夫不等式P(X≥a)≤\frac{E(X)}{a} \\ \ \\ 可得P(|X-μ|≥a)≤\frac{E(|X-μ|)}{a},即P((X-μ)^2≥a^2)≤\frac{E((X-μ)^2)}{a^2}=\frac{δ^2}{a^2} P{ XE(X) ε}ε2δ2P{ XE(X) <ε}1ε2δ2 推导:利用马尔科夫不等式  Xμ带入马尔科夫不等式P(Xa)aE(X) 可得P(Xμa)aE(Xμ),P((Xμ)2a2)a2E((Xμ)2)=a2δ2



中心极限定理

样本的平均值约等于总体的平均值。不管总体是什么分布,任意一个总体 的样本平均值都会围绕在总体的整体平均值周围,并且呈正态分布。

http://onlinestatbook.com/stat_sim/sampling_dist/index.html



最大后验概率

优化的目标: μ ^ M A P = a r g m a x μ   p ( μ ∣ X ) 根据贝叶斯公式: μ ^ M A P = a r g m a x μ   p ( μ ∣ X ) = a r g m a x μ   p ( X ∣ μ ) p ( μ ) p ( X ) = a r g m a x μ   p ( X ∣ μ ) p ( μ ) p ( X ∣ μ ) 就是似然函数, p ( μ ) 就是先验概率 优化的目标:\hat{μ}_{MAP}=\mathop{argmax}\limits_{μ} \ p(μ|X)\\ 根据贝叶斯公式:\hat{μ}_{MAP}=\mathop{argmax}\limits_{μ}\ p(μ|X)\\\qquad\qquad\qquad\qquad\qquad\qquad =\mathop{argmax}\limits_{μ}\ \frac{p(X|μ)p(μ)}{p(X)} \\\qquad\qquad\qquad\qquad\qquad\qquad=\mathop{argmax}\limits_{μ}\ p(X|μ)p(μ) \\\\\\ \qquad\qquad\qquad\qquad p(X|μ)就是似然函数,p(μ)就是先验概率 优化的目标:μ^MAP=μargmax p(μX)根据贝叶斯公式:μ^MAP=μargmax p(μX)=μargmax p(X)p(Xμ)p(μ)=μargmax p(Xμ)p(μ)p(Xμ)就是似然函数,p(μ)就是先验概率




分布

正态分布
f ( x ∣ μ , δ ) = 1 2 π δ 2 e − ( x − μ ) 2 2 δ 2   μ 是均值, δ 是标准差 f(x|μ,δ)=\frac{1}{\sqrt{2πδ^2}}e^{-\frac{(x-μ)^2}{2δ^2}} \\ \ \\ \\ μ是均值,δ是标准差 f(xμ,δ)=2πδ2 1e2δ2(xμ)2 μ是均值,δ是标准差


二项式分布
P ( x = k ) = C n k p k ( 1 − p ) n − k P(x=k)=C_{n}^{k}p^k(1-p)^{n-k} P(x=k)=Cnkpk(1p)nk


泊松分布

当以下假设有效时,则称为泊松分布

  • 一件事在一定时间内发生的次数是随机的
  • 每次事件的发生相互独立
  • 该事件要么发生,要么不发生
  • 一段时间内该事件发生的概率已知

P ( x = k ) = λ k e − λ k ! k = 0 , 1...   其中 λ > 0 且为常数,则称 X 服从参数为 λ 的泊松分布,记为 X   P ( λ ) . P(x=k)=\frac{λ^ke^{−λ}}{k!} \qquad k=0,1... \\ \ \\ 其中λ>0且为常数,则称X服从参数为λ的泊松分布,记为X~P(λ). P(x=k)=k!λkeλk=0,1... 其中λ0且为常数,则称X服从参数为λ的泊松分布,记为X P(λ).

  1. 所有的泊松分布模型都是通过无限划分转化成二项分布模型,从而求出概率的。
  2. 二项分布模型在n→∞,p→0(一般为n≥10,p≤0.1)时,可用泊松分布逼近(λ=np)。

均匀分布
f ( x ) = 1 b − a a ≤ x ≤ b f(x)=\frac{1}{b-a} \qquad a≤x≤b f(x)=ba1axb


卡方分布

若n个相互独立的随机变量ξ₁,ξ₂,…,ξn ,均服从标准正态分布(也称独立同分布于标准正态分布),则这n个服从标准正态分布的随机变量的平方和构成一新的随机变量,其分布规律称为卡方分布(chi-square distribution) 。
X = ∑ n = 1 k Z n 2 称为服从自由度为 k 的卡方分布 卡方分布的概率密度函数: f k ( x ) = 1 2 k 2 Γ ( k 2 ) x k 2 − 1 e − x 2 X=\sum \limits_{n=1}^k{Z_n^2} \qquad 称为服从自由度为k的卡方分布 \\\\ 卡方分布的概率密度函数:f_k(x)=\frac{\frac{1}{2}^{\frac{k}{2}}}{Γ(\frac{k}{2})}x^{\frac{k}{2}-1}e^{\frac{-x}{2}} X=n=1kZn2称为服从自由度为k的卡方分布卡方分布的概率密度函数:fk(x)=Γ(2k)212kx2k1e2x

Beta分布

举一个简单的例子,熟悉棒球运动的都知道有一个指标就是棒球击球率(batting average),就是用一个运动员击中的球数除以击球的总数,我们一般认为0.266是正常水平的击球率,而如果击球率高达0.3就被认为是非常优秀的。现在有一个棒球运动员,我们希望能够预测他在这一赛季中的棒球击球率是多少。你可能就会直接计算棒球击球率,用击中的数除以击球数,但是如果这个棒球运动员只打了一次,而且还命中了,那么他就击球率就是100%了,这显然是不合理的,因为根据棒球的历史信息,我们知道这个击球率应该是0.215到0.36之间才对啊。对于这个问题一个最好的方法就是用beta分布,这表示在我们没有看到这个运动员打球之前,我们就有了一个大概的范围。beta分布的定义域是(0,1)这就跟概率的范围是一样的。接下来我们将这些先验信息转换为beta分布的参数,我们知道一个击球率应该是平均0.27左右,而他的范围是0.21到0.35,那么根据这个信息,我们可以取α=81,β=219(击中了81次,未击中219次)

之所以取这两个参数是因为:

  • beta分布的均值是从图中可以看到这个分布主要落在了(0.2,0.35)间,这是从经验中得出的合理的范围。
  • 在这个例子里,我们的x轴就表示各个击球率的取值,x对应的y值就是这个击球率所对应的概率。也就是说beta分布可以看作一个概率的概率分布。

(img-FkdvF85H-1658549098685)(C:\Users\lenovo\AppData\Roaming\Typora\typora-user-images\image-20220715133555465.png)]

  • α和β是一开始的参数,在这里是81和219。当,α增加了1(击中了一次)。β没有增加(没有漏球)。这就是我们的新的beta分布Beta(81+1,219)
  • 可以看到这个分布其实没多大变化,这是因为只打了1次球并不能说明什么问题。但是如果我们得到了更多的数据,假设一共打了300次,其中击中了100次,200次没击中,那么这一新分布就是:Beta(81+100, 219+200)
  • 注意到这个曲线变得更加尖,并且平移到了一个右边的位置,表示比平均水平要高。因此,对于一个我们不知道概率是什么,而又有一些合理的猜测时,beta分布能很好的作为一个表示概率的概率分布。

B e t a ( α , β ) = x α − 1 ( 1 − x ) β − 1 B ( α , β )   B ( α , β ) = Γ ( α ) Γ ( β ) Γ ( α + β )   Γ ( n ) = ( n − 1 ) ! Beta(α,β)=\frac{x^{α-1}(1-x)^{β-1}}{B(α,β)} \\ \ \\ \\ B(α,β)=\frac{Γ(α)Γ(β)}{Γ(α+β)}\\\ \\ Γ(n)=(n-1)! Beta(α,β)=B(α,β)xα1(1x)β1 B(α,β)=Γ(α+β)Γ(α)Γ(β) Γ(n)=(n1)!




核函数

线性核函数

Linear核函数对数据不做任何变换
K ( x i , x j ) = x i T x j K(x_i,x_j)=x_i^Tx_j K(xi,xj)=xiTxj



多项式核函数

需要给定 3 个参数 ( ε + γ x T x ′ ) Q w i t h γ > 0 一般情况下二次更常见 ( 1 + γ x T x ′ ) 2 γ 对内积进行放缩 , ε 控制常数项 , Q 控制高次项 , 其特例就是线性核函数 需要给定3个参数 \qquad(ε+γx^Tx^{'})^Q \qquad with \qquadγ>0 \\\\ 一般情况下二次更常见 \qquad (1+γx^Tx^{'})^2 \\\\ γ对内积进行放缩,ε控制常数项,Q控制高次项,其特例就是线性核函数 需要给定3个参数(ε+γxTx)Qwithγ>0一般情况下二次更常见(1+γxTx)2γ对内积进行放缩,ε控制常数项,Q控制高次项,其特例就是线性核函数



高斯核函数

一维度的高斯
f ( x ) = a e − ( x − b ) 2 2 c 2 f(x)=ae^{- \frac{(x-b)^2}{2c^2}} f(x)=ae2c2(xb)2

二维的高斯
A e ( − ( ( x − x 0 ) 2 2 σ x 2 + ( y − y 0 ) 2 2 σ y 2 ) ) Ae^{(-(\frac{(x-x_0)^2}{2σ_x^2}+\frac{(y-y_0)^2}{2σ_y^2}))} Ae((2σx2(xx0)2+2σy2(yy0)2))

高斯核函数

公式
K ( X , Y ) = e ( − ∣ ∣ X − Y ∣ ∣ 2 ) 2 σ 2 )   看起来像是两个样本点之间的距离的度量 , 如果 X 和 Y 很相似,那结果也就是 1 了,如果很不相似那就是 0 了 K(X,Y)=e^{(-\frac{||X-Y||^2)}{2σ^2})} \\\ \\ 看起来像是两个样本点之间的距离的度量,如果X和Y很相似,那结果也就是1了,如果很不相似那就是0了 K(X,Y)=e(2σ2∣∣XY2)) 看起来像是两个样本点之间的距离的度量,如果XY很相似,那结果也就是1了,如果很不相似那就是0

K ( x , x ′ ) = e ( − ( x − x ′ ) 2 ) = e − x 2 e − ( x ′ ) 2 e 2 x x ′ = e − x 2 e − ( x ′ ) 2 ( ∑ i = 0 o o ( 2 x x ′ ) i i ! ) / / 泰勒公式 = ∑ i = 0 o o ( e − x 2 e − ( x ′ ) 2 2 i i ! 2 i i ! ( x ) i ( x ′ ) i ) = φ ( x ) T φ ( x ′ ) T φ ( x ) = e ( − x 2 ) ( 1 , 2 1 ! x , 2 2 2 ! x 2 ) K(x,x^{'})=e^{(-(x-x^{'})^2)} \\ =e^{-x^2}e^{-(x^{'})^2}e^{2xx^{'}}\\ \qquad \qquad \qquad\qquad \qquad=e^{-x^2}e^{-(x^{'})^2} \bigg(\sum \limits_{i=0}^{oo}\frac{(2xx^{'})^i}{i!} \bigg) \qquad // 泰勒公式 \\ \qquad \qquad \qquad\qquad= \sum \limits_{i=0}^{oo} \bigg(e^{-x^2}e^{-(x^{'})^2} \sqrt{\frac{2^i}{i!}} \sqrt{\frac{2^i}{i!}} (x)^i(x^{'})^i \bigg) \\ =φ(x)^Tφ(x^{'})^T \\ φ(x)=e^{(-x^2)}\bigg(1,\sqrt{\frac{2}{1!}}x, \sqrt{\frac{2^2}{2!}}x^2\bigg) K(x,x)=e((xx)2)=ex2e(x)2e2xx=ex2e(x)2(i=0ooi!(2xx)i)//泰勒公式=i=0oo(ex2e(x)2i!2i i!2i (x)i(x)i)=φ(x)Tφ(x)Tφ(x)=e(x2)(1,1!2 x,2!22 x2)





  • 物体内部的混乱程度。(一件事发生的不确定性)。熵值越大,越混乱。

  • KaTeX parse error: No such environment: flalign at position 8: \begin{̲f̲l̲a̲l̲i̲g̲n̲}̲ H(X)= &\ \sum …

  • 所有的概率值都是0-1之间,最终的H(X)必然也是一个正数

相对熵
K L ( p ∣ ∣ q ) = − ∑ x p ( x ) l o g q ( x ) p ( x )   相对熵也叫 K L 散度;用来度量两个分布之间的不相似性   如果是距离: A − > B = B − > A , 散度: K L ( p ∣ ∣ q ) ≠ K L ( q ∣ ∣ p ) KL(p||q)=-\sum_x p(x)log \frac{q(x)}{p(x)} \\\ \\ 相对熵也叫KL散度;用来度量两个分布之间的不相似性 \\\ \\ 如果是距离 :A->B=B->A,散度:KL(p||q)≠KL(q||p) KL(p∣∣q)=xp(x)logp(x)q(x) 相对熵也叫KL散度;用来度量两个分布之间的不相似性 如果是距离:A>B=B>A,散度:KL(p∣∣q)=KL(q∣∣p)
三者之间的关系
H ( p , q ) = − ∑ x p ( x ) l o g q ( x ) = − ∑ x p ( x ) l o g p ( x ) − ∑ x p ( x ) l o g q ( x ) p ( x ) = H ( p ) + K L ( p ∣ ∣ q ) H(p,q)=- \sum_x p(x)logq(x) \\ \qquad\qquad\qquad\qquad\qquad =- \sum_xp(x)logp(x)- \sum_x p(x)log \frac{q(x)}{p(x)} \\ \qquad=H(p)+KL(p||q) H(p,q)=xp(x)logq(x)=xp(x)logp(x)xp(x)logp(x)q(x)=H(p)+KL(p∣∣q)

当真实值的分布为[1,0,0,0,…]时,计算距离度量可以用交叉熵,因为此时交叉熵=相对熵

但是当真实值的分布为[0.8,0.2,…]类似不是一个1,其他全为0时,就不能用交叉熵了,因为此时交叉熵不等于相对熵,此时要用相对熵来度量



激活函数

Sigmod
  • Sigmoid 是常用的非线性的激活函数
  • 能够把连续值压缩到0-1区间上
  • 缺点:杀死梯度,非原点中心对称
  • 输出值全为整数会导致梯度全为正或者全为负
  • 优化更新会产生阶梯式情况(收敛过慢)

S ( x ) = 1 1 + e − x S(x)=\frac{1}{1+e^{-x}} S(x)=1+ex1


Tanh函数
  • 原点中心对称
  • 输出在-1到1之间
  • 梯度消失现象依然存在


Relu函数
  • 公式简单实用
  • 解决了梯度消失现象,计算速度更快

f ( x ) = m a x ( 0 , x ) f(x)=max(0,x) f(x)=max(0,x)


Leaky ReLU
  • 解决了Relu会杀死一部分神经元的情况

f ( x ) = m a x ( 0.01 x , x ) f(x)=max(0.01x,x) f(x)=max(0.01x,x)

在这里插入图片描述




假设检验

  • 什么是假设:对总体参数(均值,比例等)的具体数值所作的陈述。比如,我认为新的配方的药效要比原来的更好。
  • 什么是假设检验:先对总体的参数提出某种假设,然后利用样本的信息判断假设是否成立的过程。比如,上面的假设我是要接受还是拒绝呢。

假设检验的应用:

  • 推广新的教育方案后,教学效果是否有所提高
  • 醉驾判定为刑事犯罪后是否会使得交通事故减少
  • 男生和女生在选文理科时是否存在性别因素影响

假设检验的基本思想:


显著性水平:

  • 一个概率值,原假设为真时,拒绝原假设的概率,表示为 alpha 常用取值为0.01, 0.05, 0.10
  • 一个公司要来招聘了,本来实际有200个人准备混一混,但是公司希望只有5%的人是浑水摸鱼进来的,所以可能会有200*0.05=4个人混进来,所谓显著性水平α,就是你允许最多有多大比例浑水摸鱼的通过你的测试。

假设检验的步骤:

  • 提出假设
  • 确定适当的检验统计量
  • 规定显著性水平
  • 计算检验统计量的值
  • 做出统计决策

原假设与备择建设:

  • 待检验的假设又叫原假设,也可以叫零假设,表示为H0。(零假设其实就是表示原假设一般都是说没有差异,没有改变。。。)
  • 与原假设对比的假设叫做备择假设,表示为H1
  • 一般在比较的时候,主要有等于,大于,小于

检验统计量:

  • 计算检验的统计量
  • 根据给定的显著性水平,查表得出相应的临界值
  • 将检验统计量的值与显著性水平的临界值进行比较
  • 得出拒绝或不拒绝原假设的结论

检验中常说的小概率:

  • 在一次试验中,一个几乎不可能发生的事件发生的概率
  • 在一次试验中小概率事件一旦发生,我们就有理由拒绝原假设
  • 小概率由我们事先确定

P值:

  • 是一个概率值
  • 如果原假设为真,P-值是抽样分布中大于或小于样本统计量的概率
  • 左侧检验时,P-值为曲线上方小于等于检验统计量部分的面积
  • 右侧检验时,P-值为曲线上方大于等于检验统计量部分的面积

左侧检验与右侧检验

  • 当关键词有不得少于/低于的时候用左侧,比如灯泡的使用寿命不得少于/低于700小时时
  • 当关键词有不得多于/高于的时候用右侧,比如次品率不得多于/高于5%时

双侧检验

  • 单侧检验指按分布的一侧计算显著性水平概率的检验。用于检验大于、小于、高于、低于、优于、劣于等有确定性大小关系的假设检验问题。这类问题的确定是有一定的理论依据的。假设检验写作:μ1<μ2或μ1>μ2。
  • 双侧检验指按分布两端计算显著性水平概率的检验, 应用于理论上不能确定两个总体一个一定比另一个大或小的假设检验。一般假设检验写作H1:μ1≠μ2。

例如,某种零件的尺寸,要求其平均长度为10cm,大于或小于10cm均属于不合格我们想要证明(检验)大于或小于这两种可能性中的任何一种是否成立 建立的原假设与备择假设应为:

H0: μ = 10 H1: μ ≠ 10


检验结果:

单侧检验

  • 若p值 > α,不拒绝 H0
  • 若p值 < α, 拒绝 H0

双侧检验

  • 若p-值 > α/2, 不拒绝 H0
  • 若p-值 < α/2, 拒绝 H0

总体均值检验


统计量Z值的计算公式为:

如果检验一个样本平均数与一个已知的总体平均数的差异是否显著,其Z值计算公式为:
Z = X ˉ − μ σ X ˉ = X ˉ − μ σ / n Z=\frac{\bar{X}-μ}{σ_{\bar{X}}}=\frac{\bar{X}-μ}{σ/\sqrt{n}} Z=σXˉXˉμ=σ/n Xˉμ

如果检验来自两个的两组样本平均数的差异性,从而判断它们各自代表的总体的差异是否显著,其Z值计算公式为:
Z = X 1 ˉ − X 2 ˉ S X 1 ˉ − X 2 ˉ = X 1 ˉ − X 2 ˉ S 1 2 / n 1 + S 2 2 / n 2 Z=\frac{\bar{X_1}-\bar{X_2}}{S_{\bar{X_1}-\bar{X_2}}}=\frac{\bar{X_1}-\bar{X_2}}{\sqrt{S_{1}^2/n_1+S_{2}^2/n_2}} Z=SX1ˉX2ˉX1ˉX2ˉ=S12/n1+S22/n2 X1ˉX2ˉ



Z检验
  • 当总体标准差已知,样本量较大时用标准正态分布的理论来推断差异发生的概率,从而比较两个平均数的差异是否显著
  • 标准正态变换后Z的界值

双侧: Z 0.05 / 2 = 1.96 Z 0.01 / 2 = 2.58 单侧: Z 0.05 = 1.645 Z 0.01 = 2.33 双侧:Z_{0.05/2}=1.96 \qquad \qquad Z_{0.01/2}=2.58 \\ 单侧:Z_{0.05}=1.645 \qquad \qquad Z_{0.01}=2.33 \\ 双侧:Z0.05/2=1.96Z0.01/2=2.58单侧:Z0.05=1.645Z0.01=2.33

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-nswdhBzE-1658549098685)(C:\Users\lenovo\AppData\Roaming\Typora\typora-user-images\image-20220718150830914.png)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-psFlKQrQ-1658549098686)(C:\Users\lenovo\AppData\Roaming\Typora\typora-user-images\image-20220718150841721.png)]


[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Ua5WGCNP-1658549098686)(C:\Users\lenovo\AppData\Roaming\Typora\typora-user-images\image-20220718150849278.png)]



T检验
  • 单个样本的t检验:

用来比较一组数据的平均值和一个数值有无差异。例如,你选取了5个人,测定了他们的身高,要看这五个人的身高平均值是否高于、低于还是等于1.70m,就需要用这个检验方法。

  • 配对样本均数t检验(非独立两样本均数t检验)

用来看一组样本在处理前后的平均值有无差异。比如,你选取了5个人,分别在饭前和饭后测量了他们的体重,想检测吃饭对他们的体重有无影响,就需要用这个t检验。

  • 两个独立样本均数t检验

用来看两组数据的平均值有无差异。比如,你选取了5男5女,想看男女之间身高有无差异,这样,男的一组,女的一组,这两个组之间的身高平均值的大小比较可用这种方法。


单个样本t检验
  • 又称单样本均数t检验(one sample t test),适用于样本均数与已知总体均数μ0的比较,目的是检验样本均数所代表的总体均数μ是否与已知总体均数μ0有差别。
  • 已知总体均数μ0一般为标准值、理论值或经大量观察得到的较稳定的指标值。
  • 应用条件,总体标准α未知的小样本资料,且服从正态分布。

实例:

临界值表: http://www.docin.com/p-1173562569.html

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-IMMbEDOD-1658549098686)(C:\Users\lenovo\AppData\Roaming\Typora\typora-user-images\image-20220718185249331.png)]


配对样本均数t检验:
  • 简称配对t检验(paired t test),又称非独立两样本均数t检验,适用于配对设计计量资料均数的比较。
  • 配对设计(paired design)是将受试对象按某些特征相近的原则配成对子,每对中的两个个体随机地给予两种处理。

配对样本均数t检验原理:

  • 配对设计的资料具有对子内数据一一对应的特征,研究者应关心是对子的效应差值而不是各自的效应值。
  • 进行配对t检验时,首选应计算各对数据间的差值d,将d作为变量计算均数。
  • 配对样本t检验的基本原理是假设两种处理的效应相同,理论上差值d的总体均数μd 为0,现有的不等于0差值样本均数可以来自μd = 0的总体,也可以来μd ≠ 0的总体。
  • 可将该检验理解为差值样本均数与已知总体均数μd(μd = 0)比较的单样本t检验,其检验统计量为:

t = d ˉ − μ d S d ˉ = d ˉ − 0 S d ˉ = d ˉ S d / n t=\frac{\bar{d}-μ_d}{S_{\bar{d}}}=\frac{\bar{d}-0}{S_{\bar{d}}}=\frac{\bar{d}}{S_d/\sqrt{n}} t=Sdˉdˉμd=Sdˉdˉ0=Sd/n dˉ

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-mMmxVAG8-1658549098687)(C:\Users\lenovo\AppData\Roaming\Typora\typora-user-images\image-20220718185824979.png)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ol3jhwQg-1658549098687)(C:\Users\lenovo\AppData\Roaming\Typora\typora-user-images\image-20220718185838623.png)]


两独立样本t检验
  • 两独立样本t 检验(two independent sample t-test),又称成组 t 检验。
  • 适用于完全随机设计的两样本均数的比较,其目的是检验两样本所来自总体的均数是否相等。
  • 完全随机设计是将受试对象随机地分配到两组中,每组患者分别接受不同的处理,分析比较处理的效应。
  • 两独立样本t检验要求两样本所代表的总体服从正态分布N(μ1,σ2)和N(μ2,σ2),且两总体方差σ12、σ22相等,即方差齐性。若两总体方差不等需要先进行变换

两独立样本t检验原理

两独立样本t检验的检验假设是两总体均数相等,即H0:μ1=μ2,也可表述为μ1-μ2=0,这里可将两样本均数的差值看成一个变量样本,则在H0条件下两独立样本均数t检验可视为样本与已知总体均数μ1-μ2=0的单样本t检验, 统计量计算公式为:
t = ∣ ( X 1 ˉ − X 2 ˉ ) − ( μ 1 − μ 2 = 0 ) ∣ S X 1 ˉ − X 2 ˉ = ∣ X 1 ˉ − X 2 ˉ ∣ S X 1 ˉ − X 2 ˉ v = n 1 + n 2 − 2   S X 1 ˉ − X 2 ˉ = S c 2 ( 1 n 1 + 1 n 2 )   S c 2 = ∑ X 1 2 − ( ∑ X 1 ) 2 n 1 + ∑ X 2 2 − ( ∑ X 2 ) 2 n 2 n 1 + n 2 − 2   S c 2 称为合并方差 t=\frac{|(\bar{X_1}-\bar{X_2})-(μ_1-μ_2=0)|}{S_{\bar{X_1}-\bar{X_2}}}=\frac{|\bar{X_1}-\bar{X_2}|}{S_{\bar{X_1}-\bar{X_2}}} \qquad v=n_1+n_2-2 \\\ \\ S_{\bar{X_1}-\bar{X_2}}=\sqrt{S_c^2 \bigg(\frac{1}{n_1}+\frac{1}{n_2} \bigg)} \\\ \\ S_c^2=\frac{\sum X_1^2-\frac{(\sum X_1)^2}{n_1}+\sum X_2^2-\frac{(\sum X_2)^2}{n_2}}{n_1+n_2-2}\\\ \\ Sc^2称为合并方差 t=SX1ˉX2ˉ(X1ˉX2ˉ)(μ1μ2=0)=SX1ˉX2ˉX1ˉX2ˉv=n1+n22 SX1ˉX2ˉ=Sc2(n11+n21)  Sc2=n1+n22X12n1(X1)2+X22n2(X2)2 Sc2称为合并方差


[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-hNdqRQ8b-1658549098687)(C:\Users\lenovo\AppData\Roaming\Typora\typora-user-images\image-20220718190832738.png)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-btB3NAE1-1658549098687)(C:\Users\lenovo\AppData\Roaming\Typora\typora-user-images\image-20220718190841351.png)]


T检验应用条件:

  • 两组计量资料小样本比较
  • 样本对总体有较好代表性,对比组间有较好组间均衡性——随机抽样和随机分组
  • 样本来自正态分布总体,配对t检验要求差值服从正态分布,大样本时,用z检验,且正态性要求可以放宽
  • 两独立样本均数t检验要求方差齐性——两组总体方差相等或两样本方差间无显着性



卡方检验(Chi-square test)

用于检验两个(或多个)率或构成比之间差别是否有统计学意义,配对卡方检验检验配对计数资料的差异是否有统计学意义。

基本思想:

检验实际频数(A)和理论频数(T)的差别是否由抽样误差所引起的。也就是由样本率(或样本构成比)来推断总体率或构成比。

实例:

两种药物治疗胃溃疡有效率的比较

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-bn7u5RmX-1658549098688)(C:\Users\lenovo\AppData\Roaming\Typora\typora-user-images\image-20220719105559238.png)]

理论频数与实际频数的差别:
χ 2 = ∑ ( A R C − T R C ) 2 T R C χ^2=\sum \frac{(A_{RC}-T_{RC})^2}{T_{RC}} \\\\ χ2=TRC(ARCTRC)2
ARC是位于R行C列交叉处的实际频数, TRC是位于R行C列交叉处的理论频数。 ( ARC - TRC )反映实际频数与理论频数的差距,除以TRC 为的是考虑相对差距。所以,χ^2 值反映了实际频数与理论频数的吻合程度, χ^2 值大,说明实际频数与理论频数的差距大。 χ^2 值的大小除了与实际频数和理论频数的差的大小有关外,还与它们的行、列数有关。即自由度的大小。自由度=(行数-1)*(列数-1)


理论频数根据假设来计算的:

无效假设是A药组与B药组的总体有效率相等,均等于合计的阳性率66.67%(110/165)。那么理论上,A药组的85例中阳性人数应为85(110/165)=56.67,阴性人数为85(55/165)=28.33;同理,B药组的80例中阳性人数应为80(110/165)=53.33,阴性人数为80(55/165)=26.67。

一般的四格表:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-1YoM2P2b-1658549098688)(C:\Users\lenovo\AppData\Roaming\Typora\typora-user-images\image-20220719105905660.png)]

在这里插入图片描述

若检验假设H0:π1=π2成立,四个格子的实际频数A 与理论频数T 相差不应该很大,即统计量χ2 不应该很大。如果χ2 值很大,即相对应的P 值很小,若 P≤α,则反过来推断A与T相差太大,超出了抽样误差允许的范围,从而怀疑H0的正确性,继而拒绝H0,接受其对立假设H1,即π1≠π2 。


[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-549rH8DG-1658549098688)(C:\Users\lenovo\AppData\Roaming\Typora\typora-user-images\image-20220719110052586.png)]



假设检验中的两类错误

第一类错误(弃真错误):

  • 原假设为真时拒绝原假设
  • 第一类错误的概率为α

第二类错误(取伪错误):

  • 原假设为假时接受原假设
  • 第二类错误的概率为β




实例

一个公司有员工3000 人(研究的总体) ,为了检验公司员工工资统计报表的真实性,研究者作了50 人的大样本随机抽样调查,人均收入的调查结果是: X (样本均值)=871 元;S(标准差)=21 元问能否认为统计报表中人均收入μ0=880 元的数据是真实的? (显着性水平α=0.05 )

  • 原假设H0:调查数据871 元与报表数据880 元之间没有显着性差异,公司员工工资均值的真实情况为880 元;
  • 假设H1:调查数据和报表数据之间有显着性的差异,公司员工工资均值的真实情况不是880 元。

α 错误出现原因

我们只抽了一个样本,而个别的样本可能是特殊的,不管你的抽样多么符合科学抽样的要求。理论上讲,在 3000 个员工中随机抽取 50 人作为调查样本,有很多种构成样本的可能性,相当于 3000 选 50,这个数目是很大的。这样,在理论上就有存在很多个样本平均数。也就是说,由于小概率事件的出现,我们把本来真实的原假设拒绝了。这就是 α 错误出现的原因。


β 错误出现原因:

第二个问题是,统计检验的逻辑犯了从结论推断前提的错误。命题 B 是由命题 A 经演绎推论出来的,或写作符号 A→B,命题 C 是我们在检验中所依据操作法则。如果A 是真的,且我们从 A 到 B 的演绎推论如果也是正确的,那么B 可能是真实的。相反,如果结果 B是真实的,那么就不能得出A 必定是真实的结论。这就是 β错误出现的原因。

α 错误概率计算:

由实际推断原理引起的,即“小概率事件不会发生”的假定所引起的,所以有理由将所有小概率事件发生的概率之和或者即显着性水平(α=0.05)看作α错误发生的概率,换言之,α错误发生的概率为检验所选择的显着性水平。 如果是单侧检验,弃真错误的概率则为α/2。


β错误的概率计算:

犯β错误的概率的计算是比较复杂的,由于β错误的出现原因是属于逻辑上的,所以在总体参数不知道的情况下是无法计算它出现概率的大小的。 我们在以上例子的基础上进一步设计:这个公司职员的实际工资不是880 元,而是 870 元,原假设为伪,仍然假设实际工资是880元。这样我们就可以在总体均值为 870 元和 880元两种情况下, 分别作出两条正态分布曲线 (A线和 B 线)


犯 β错误的概率大小就是相对正态曲线A 而言,图 1 中阴影部分的面积: ZX1=1.41 ;ZX2=5.59
查标准正态分布表可知,β=Φ(ZX2)-Φ(ZX1)=0.0793 结果表明,如果总体的真值为 870 元,而虚无假设为880元的话,那么,平均而言每100 次抽样中,将约有8次把真实情况当作880 元被接受,即犯β错误的概率大小是0.0793。




相关分析

  • 衡量事物之间或称变量之间线性相关程度的强弱,并用适当的统计指标表示出来的过程。
  • 比如,家庭收入和支出、一个人所受教育程度与其收入、子女身高和父母身高等

相关系数

  • 衡量变量之间相关程度的一个量值
  • 相关系数r的数值范围是在一1到十1之间
  • 相关系数r的正负号表示变化方向。“+”号表示变化方向一致,即正相关;“-”号表示变化方向相反,即负相关
  • r的绝对值表示变量之间的密切程度(即强度)。绝对值越接近1,表示两个变量之间关系越密切;越接近0,表示两个变量之间关系越不密切



Pearson相关系数
  • 连续变量即数据变量,它的取值之间可以比较大小,可以用加减法计算出差异的大小。如“年龄”、“收入”、“成绩”等变量。
  • 当两个变量都是正态连续变量,而且两者之间呈线性关系时,通常用Pearson相关系数来衡量

协方差:

协方差是一个反映两个随机变量相关程度的指标,如果一个变量跟随着另一个变量同时变大或者变小,那么这两个变量的协方差就是正值
c o v ( X , Y ) = ∑ i = 1 n ( X i − X ˉ ) ( Y i − Y ˉ ) n − 1 cov(X,Y)=\frac{\sum \limits_{i=1}^n(X_i-\bar{X})(Y_i-\bar{Y})}{n-1} cov(X,Y)=n1i=1n(XiXˉ)(YiYˉ)

虽然协方差能反映两个随机变量的相关程度(协方差大于0的时候表示两者正相关,小于0的时候表示两者负相关),但是协方差值的大小并不能很好地度量两个随机变量的关联程度。

在二维空间中分布着一些数据,我们想知道数据点坐标X轴和Y轴的相关程度,如果X与Y的相关程度较小但是数据分布的比较离散,这样会导致求出的协方差值较大,用这个值来度量相关程度是不合理的。为了更好的度量两个随机变量的相关程度,引入了Pearson相关系数,其在协方差的基础上除以了两个随机变量的标准差


pearson相关系数
ρ X , Y = c o v ( X , Y ) σ X σ Y = E [ ( X − μ X ) ( Y − μ Y ) ] σ X σ Y ρ_{X,Y}=\frac{cov(X,Y)}{σ_Xσ_Y}=\frac{E[(X-μ_X)(Y-μ_Y)]}{σ_Xσ_Y} ρX,Y=σXσYcov(X,Y)=σXσYE[(XμX)(YμY)]

pearson是一个介于-1和1之间的值,当两个变量的线性关系增强时,相关系数趋于1或-1;当一个变量增大,另一个变量也增大时,表明它们之间是正相关的,相关系数大于0;如果一个变量增大,另一个变量却减小,表明它们之间是负相关的,相关系数小于0;如果相关系数等于0,表明它们之间不存在线性相关关系。



相关系数的显著性检验

假设

  • H0: ρ=0
  • H1: ρ≠0

统计量
t = r n − 2 1 − r 2 t=\frac{r \sqrt{n-2}}{\sqrt{1-r^2}} t=1r2 rn2



等级变量的相关分析

当测量得到的数据不是等距或等比数据,而是具有等级顺序的数据;或者得到的数据是等距或等比数据,但其所来自的总体分布不是正态的,不满足求皮尔森相关系数(积差相关)的要求。这时就要运用等级相关系数。

先来看一个小实验,两个基因A、B,他们的表达量关系是B=2A,在8个样本中的表达量值如下

计算得出,他们的皮尔森相关系数r=1,P-vlaue≈0,从以上可以直观看出,如果两个基因的表达量呈线性关系,则具有显著的皮尔森相关性。


皮尔森相关系数是一种线性相关系数,因此如果两个变量呈线性关系的时候,具有最大的显著性。对于非线性关系(例如A、D的幂函数关系),则其对相关性的检测功效会下降。

当两个变量值以等级次序排列或以等级次序表示时,两个相应总体并不一定呈正态分布,样本容量也不一定大于30,表示这两变量之间的相关,称为Spearman等级相关。

简单点说,就是无论两个变量的数据如何变化,符合什么样的分布,我们只关心每个数值在变量内的排列顺序。如果两个变量的对应值,在各组内的排序顺位是相同或类似的,则具有显著的相关性。

ρ = 1 − 6 ∑ d i 2 n 3 − n n 为等级个数 , d 为二列成对变量的等级差数 ρ=1-\frac{6 \sum d_i^2}{n^3-n} \qquad n为等级个数, d为二列成对变量的等级差数 ρ=1n3n6di2n为等级个数,d为二列成对变量的等级差数




贝叶斯

贝叶斯公式
P ( A ∣ B ) = P ( A ) P ( B ∣ A ) P ( B ) P(A|B)=\frac{P(A)P(B|A)}{P(B)} P(AB)=P(B)P(A)P(BA)


模型比较理论

  • 最大似然:最符合观测数据的( P(B|A) )最有优势。

  • 奥卡姆剃刀:P(A)较大的模型有较大的优势

如果平面上有N个点,近似构成一条直线,但绝不精确地位于一条直线上。这时我们既可以用直线来拟合(模型1),也可以用二阶多项式(模型2)拟合,也可以用三阶多项式(模型3),特别地,用N-1阶多项式便能够保证肯定能完美通过N个数据点。那么,这些可能的模型之中到底哪个是最靠谱的呢?
奥卡姆剃刀: 越是高阶的多项式越是不常见



垃圾邮件过滤实例:

问题:给定一封邮件,判定它是否属于垃圾邮件。D来表示这封邮件,注意D由N个单词组成。我们用h+来表示垃圾邮件,h-表示正常邮件
P ( h + ∣ D ) = P ( h + ) ∗ P ( D ∣ h + ) P ( D )   P ( h − ∣ D ) = P ( h − ) ∗ P ( D ∣ h − ) P ( D ) P(h+|D)=\frac{P(h+)*P(D|h+)}{P(D)} \\\ \\ P(h-|D)=\frac{P(h-)*P(D|h-)}{P(D)} P(h+D)=P(D)P(h+)P(Dh+) P(hD)=P(D)P(h)P(Dh)


  • 先验概率:P(h+)和P(h-)这两个先验概率都是很容易求出来的,只需
    要计算一个邮件库里面垃圾邮件和正常邮件的比例就行了。
  • D里面含有N个单词 d1, d2, d3,P(D|h+) = P(d1,d2,…,dn |h+)
    P(d1,d2,…,dn|h+)就是说在垃圾邮件当中出现跟我们目前这封邮件一模一样的一封邮件的概率是多大!

P ( d 1 , d 2 , . . , d n ∣ h + ) 扩展为: P ( d 1 ∣ h + ) ∗ P ( d 2 ∣ h 1 , h + ) ∗ P ( d 3 ∣ d 2 , d 1 , h + ) . . . P(d1,d2,..,dn |h+)扩展为:P(d1|h+)*P(d2|h1,h+)*P(d3|d2,d1,h+)... P(d1,d2,..,dnh+)扩展为:P(d1∣h+)P(d2∣h1,h+)P(d3∣d2,d1,h+)...

假设di与di-1是完全条件无关的(朴素贝叶斯假设特征之间是独立的,互不影响

可以简化为:
P ( d 1 ∣ h + ) ∗ P ( d 2 ∣ h + ) ∗ P ( d 3 ∣ h + ) . . . P(d1|h+)*P(d2|h+)*P(d3|h+)... P(d1∣h+)P(d2∣h+)P(d3∣h+)...
对于P(d1|h+) *P(d2|h+) *P(d3|h+)…只要统计di这个单词在垃圾邮件中出现的频率即可

  • 1
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值