人工智能基础知识总结

分析术语

  • 与**同时出现:说明两者概率相同

名词术语

  • 回归:就是找一个函数,去拟合给定的输入输出。
  • 分类:也是找一个函数,使得对于给出的训练数据的输入输出是正确的。
  • 马尔可夫决策过程:就是用状态动作奖励序列来描述问题就是马尔可夫决策过程。
  • 马尔可夫过程:就是用状态序列去描述问题就是马尔可夫过程。
  • 随机过程:就是随机现象的变化序列。
  • 随机现象:用概率分布去描述的问题就是随机现象。
  • 马尔科夫奖励过程:用状态奖励序列描述的问题就是马尔可夫奖励过程。

函数就像我之前总结的一样,有连续函数类还有非连续函数类。具体见三角函数类总结多项式函数类总结阶跃函数类总结
多分类问题可以用一个标量函数来逼近也可以用一个多输入多输出的矢量函数来看,为了逼近矢量函数其实就是把多个函数拼凑起来,又因为单个函数输出无非就是 0 , 1 0,1 0,1,也可以用交叉熵来衡量差异。

待补充测试分析

输入输出的个数怎么判别,如果样本是从数值上的差异来划分类别的话就是单输出,如果类别是从位置上的差异来划分类别的就是多输出。
把softmax用于后面的max函数会有什么不同?

随机变量均值与方差

我们假设有一个随机向量满足如下条件: ( x , y ) ∼ P ( x , y ) (x,y)\sim{P(x,y)} (x,y)P(x,y),也就是说取 ( x , y ) (x,y) (x,y)这个值对的概率为: P ( x , y ) P(x,y) P(x,y),那么这个随机向量的函数也服从这个分布,比如: ( f ( x , ω , b ) − y ) 2 ∼ P ( x , y ) (f(x,\omega,b)-y)^2\sim{P(x,y)} (f(x,ω,b)y)2P(x,y)。也就是说当取 ( x , y ) (x,y) (x,y)这个值对时,出现的概率为: P ( x , y ) P(x,y) P(x,y),此时也会有函数值 ( f ( x , ω , b ) − y ) 2 (f(x,\omega,b)-y)^2 (f(x,ω,b)y)2出现,所以这个函数值出现的概率也为: P ( x , y ) P(x,y) P(x,y)

当值对出现时,函数值也会出现,不考虑重复函数值的情况下可以说值对出现的概率与函数值出现的概率相同。也就是服从同样的分布。

从这个分布中采样一次得到: ( x 1 , y 1 ) ∼ P ( x , y ) (x_1,y_1)\sim{P(x,y)} (x1,y1)P(x,y),这个对应的 ( f ( x 1 , ω , b ) − y 1 ) 2 (f(x_1,\omega,b)-y_1)^2 (f(x1,ω,b)y1)2也服从这个分布。这个随机变量的均值和方差我们分别表示如下:
E ( ( f ( x 1 , ω , b ) − y 1 ) 2 ) = ∑ x 1 ∑ y 1 ( f ( x 1 , ω , b ) − y 1 ) 2 P ( x 1 , y 1 ) \begin{split} E((f(x_1,\omega,b)-y_1)^2)&=\sum_{x_1}\sum_{y_1}(f(x_1,\omega,b)-y_1)^2P(x_1,y_1) \end{split} E((f(x1,ω,b)y1)2)=x1y1(f(x1,ω,b)y1)2P(x1,y1)

D ( ( f ( x 1 , ω , b ) − y 1 ) 2 ) = E ( ( f ( x 1 , ω , b ) − y 1 ) 4 ) − E 2 ( ( f ( x 1 , ω , b ) − y 1 ) 2 ) \begin{split} D((f(x_1,\omega,b)-y_1)^2)=E((f(x_1,\omega,b)-y_1)^4)-E^2((f(x_1,\omega,b)-y_1)^2) \end{split} D((f(x1,ω,b)y1)2)=E((f(x1,ω,b)y1)4)E2((f(x1,ω,b)y1)2)

当我们多次采样求平均值时有:
Z = 1 n ∑ i = 1 n ( f ( x i , ω , b ) − y i ) 2 Z=\frac{1}{n}\sum_{i=1}^n(f(x_i,\omega,b)-y_i)^2 Z=n1i=1n(f(xi,ω,b)yi)2

其中各个变量 ( x i , y i ) (x_i,y_i) (xi,yi)都是独立采样得到的,也就是服从独立同分布,所以联合概率密度就是各独立概率密度的乘积。也就是说上面这个随机变量所对应的概率值为: P ( x 1 , y 1 ) P ( x 2 , y 2 ) P ( x 3 , y 3 ) P(x_1,y_1)P(x_2,y_2)P(x_3,y_3) P(x1,y1)P(x2,y2)P(x3,y3),这个随机变量的均值与方差分别为:

同样可以用上面的分析,值对 ( x 1 , y 1 , x 2 , y 2 , ⋯   , x n , y n ) (x_1,y_1,x_2,y_2,\cdots,x_n,y_n) (x1,y1,x2,y2,,xn,yn)出现的概率为 P ( x 1 , y 1 ) ∗ ⋯ ∗ P ( x n , y n ) P(x_1,y_1)*\cdots*{P(x_n,y_n)} P(x1,y1)P(xn,yn),而当值对出现时,函数值 1 n ∑ i = 1 n ( f ( x i , ω , b ) − y i ) 2 \frac{1}{n}\sum_{i=1}^n(f(x_i,\omega,b)-y_i)^2 n1i=1n(f(xi,ω,b)yi)2也会出现,所以他们出现的概率相同,具有同样的分布。

E ( Z ) = E ( 1 n ∑ i = 1 n ( f ( x i , ω , b ) − y i ) 2 ) = ∑ x 1 ∑ y 1 ⋯ ∑ y n 1 n ∑ i = 1 n ( f ( x i , ω , b ) − y i ) 2 P ( x 1 , y 1 ) ⋯ P ( x n , y n ) = 1 n ∑ i = 1 n ∑ x i ∑ y i ( f ( x i , ω , b ) − y i ) 2 P ( x i , y i ) = E ( ( f ( x 1 , ω , b ) − y 1 ) 2 ) \begin{split} E(Z)&=E(\frac{1}{n}\sum_{i=1}^n(f(x_i,\omega,b)-y_i)^2) \\&=\sum_{x_1}\sum_{y_1}\cdots\sum_{y_n}\frac{1}{n}\sum_{i=1}^n(f(x_i,\omega,b)-y_i)^2P(x_1,y_1)\cdots{P(x_n,y_n)} \\&=\frac{1}{n}\sum_{i=1}^n\sum_{x_i}\sum_{y_i}(f(x_i,\omega,b)-y_i)^2P(x_i,y_i) \\&=E((f(x_1,\omega,b)-y_1)^2) \end{split} E(Z)=E(n1i=1n(f(xi,ω,b)yi)2)=x1y1ynn1i=1n(f(xi,ω,b)yi)2P(x1,y1)P(xn,yn)=n1i=1nxiyi(f(xi,ω,b)yi)2P(xi,yi)=E((f(x1,ω,b)y1)2)

D ( Z ) = D ( 1 n ∑ i = 1 n ( f ( x i , ω , b ) − y i ) 2 ) = E ( Z 2 ) − E 2 ( Z ) = E ( [ 1 n ∑ i = 1 n ( f ( x i , ω , b ) − y i ) 2 ] ∗ [ 1 n ∑ i = 1 n ( f ( x i , ω , b ) − y i ) 2 ] ) − E 2 ( ( f ( x 1 , ω , b ) − y 1 ) 2 ) = ∑ x 1 ∑ y 1 ⋯ ∑ y n [ 1 n ∑ i = 1 n ( f ( x i , ω , b ) − y i ) 2 ] ∗ [ 1 n ∑ i = 1 n ( f ( x i , ω , b ) − y i ) 2 ] P ( x 1 , y 1 ) ⋯ P ( x n , y n ) − E 2 ( ( f ( x 1 , ω , b ) − y 1 ) 2 ) = 1 n E ( ( f ( x 1 , ω , b ) − y 1 ) 4 ) + 1 n 2 E 2 ( ( f ( x 1 , ω , b ) − y 1 ) 2 ) ∗ ( n 2 − n ) − E 2 ( ( f ( x 1 , ω , b ) − y 1 ) 2 ) = 1 n E ( ( f ( x 1 , ω , b ) − y 1 ) 4 ) − 1 n E 2 ( ( f ( x 1 , ω , b ) − y 1 ) 2 ) = 1 n D ( ( f ( x 1 , ω , b ) − y 1 ) 2 ) \begin{split} D(Z)&=D(\frac{1}{n}\sum_{i=1}^n(f(x_i,\omega,b)-y_i)^2) \\&=E(Z^2)-E^2(Z) \\&=E([\frac{1}{n}\sum_{i=1}^n(f(x_i,\omega,b)-y_i)^2]*[\frac{1}{n}\sum_{i=1}^n(f(x_i,\omega,b)-y_i)^2])-E^2((f(x_1,\omega,b)-y_1)^2) \\&=\sum_{x_1}\sum_{y_1}\cdots\sum_{y_n}[\frac{1}{n}\sum_{i=1}^n(f(x_i,\omega,b)-y_i)^2]*[\frac{1}{n}\sum_{i=1}^n(f(x_i,\omega,b)-y_i)^2]P(x_1,y_1)\cdots{P(x_n,y_n)}-E^2((f(x_1,\omega,b)-y_1)^2) \\&=\frac{1}{n}E((f(x_1,\omega,b)-y_1)^4)+\frac{1}{n^2}E^2((f(x_1,\omega,b)-y_1)^2)*(n^2-n)-E^2((f(x_1,\omega,b)-y_1)^2) \\&=\frac{1}{n}E((f(x_1,\omega,b)-y_1)^4)-\frac{1}{n}E^2((f(x_1,\omega,b)-y_1)^2) \\&=\frac{1}{n}D((f(x_1,\omega,b)-y_1)^2) \end{split} D(Z)=D(n1i=1n(f(xi,ω,b)yi)2)=E(Z2)E2(Z)=E([n1i=1n(f(xi,ω,b)yi)2][n1i=1n(f(xi,ω,b)yi)2])E2((f(x1,ω,b)y1)2)=x1y1yn[n1i=1n(f(xi,ω,b)yi)2][n1i=1n(f(xi,ω,b)yi)2]P(x1,y1)P(xn,yn)E2((f(x1,ω,b)y1)2)=n1E((f(x1,ω,b)y1)4)+n21E2((f(x1,ω,b)y1)2)(n2n)E2((f(x1,ω,b)y1)2)=n1E((f(x1,ω,b)y1)4)n1E2((f(x1,ω,b)y1)2)=n1D((f(x1,ω,b)y1)2)

可以看出n次采样的平均值的期望与原来分布的期望是相同的,但是方差是原来分布的 1 n \frac{1}{n} n1,当我们采样次数趋于无穷时会有:
Z ∞ = lim ⁡ n → ∞ 1 n ∑ i = 1 n ( f ( x i , ω , b ) − y i ) 2 = lim ⁡ n → ∞ n i n ∑ i = 1 n ( f ( x i , ω , b ) − y i ) 2 = ∑ x i ∑ y i ( f ( x i , ω , b ) − y i ) 2 P ( x i , y i ) \begin{split} Z_{\infty}&=\lim_{n\to\infty}\frac{1}{n}\sum_{i=1}^n(f(x_i,\omega,b)-y_i)^2 \\&=\lim_{n\to\infty}\frac{n_i}{n}\sum_{i=1}^n(f(x_i,\omega,b)-y_i)^2 \\&=\sum_{x_i}\sum_{y_i}(f(x_i,\omega,b)-y_i)^2P(x_i,y_i) \end{split} Z=nlimn1i=1n(f(xi,ω,b)yi)2=nlimnnii=1n(f(xi,ω,b)yi)2=xiyi(f(xi,ω,b)yi)2P(xi,yi)

根据上面的分析,此时它的均值不变,方差为 lim ⁡ n → ∞ 1 n D ( ( f ( x 1 , ω , b ) − y 1 ) 2 ) = 0 \lim_{n\to\infty}\frac{1}{n}D((f(x_1,\omega,b)-y_1)^2)=0 limnn1D((f(x1,ω,b)y1)2)=0。也就是说采样无穷多次以后,就不具有随机性了,从表达式上看就是当所有情况都考虑进内以后,就没有随机性了。就变成与随机变量无关的确定性变量了。

假设一个随机变量为 x ∼ U ( 1 , 4 ) x\sim{U(1,4)} xU(1,4),即 f ( x ) = 1 3 f(x)=\frac{1}{3} f(x)=31,均值为: 5 2 \frac{5}{2} 25,方差为: 3 4 \frac{3}{4} 43,当我们采样三次 x 1 , x 2 , x 3 x_1,x_2,x_3 x1,x2,x3,其中每个变量均服从 x i ∼ U ( 1 , 4 ) x_i\sim{U(1,4)} xiU(1,4),考虑均值随机变量 Z = 1 3 ( x 1 + x 2 + x 3 ) Z=\frac{1}{3}(x_1+x_2+x_3) Z=31(x1+x2+x3),求他的期望为:
∫ 1 4 ∫ 1 4 ∫ 1 4 1 3 ( x 1 + x 2 + x 3 ) ( 1 3 ) 3 d x 1 d x 2 d x 3 = 5 2 \int_{1}^{4}\int_{1}^{4}\int_{1}^{4}\frac{1}{3}(x_1+x_2+x_3)(\frac{1}{3})^3dx_1dx_2dx_3=\frac{5}{2} 14141431(x1+x2+x3)(31)3dx1dx2dx3=25

他的方差为:
E [ ( Z − 5 2 ) 2 ] = E [ ( 1 3 ( x 1 + x 2 + x 3 ) − 5 2 ) 2 ] = ∫ 1 4 ∫ 1 4 ∫ 1 4 ( 1 3 ( x 1 + x 2 + x 3 ) − 5 2 ) 2 ∗ ( 1 3 ) 3 d x 1 d x 2 d x 3 = 1 4 = 1 n D ( x ) = 1 3 ∗ 3 4 \begin{split} E[(Z-\frac{5}{2})^2]&=E[(\frac{1}{3}(x_1+x_2+x_3)-\frac{5}{2})^2] \\&=\int_{1}^{4}\int_{1}^{4}\int_{1}^{4}(\frac{1}{3}(x_1+x_2+x_3)-\frac{5}{2})^2*(\frac{1}{3})^3dx_1dx_2dx_3 \\&=\frac{1}{4} \\&=\frac{1}{n}D(x)=\frac{1}{3}*\frac{3}{4} \end{split} E[(Z25)2]=E[(31(x1+x2+x3)25)2]=141414(31(x1+x2+x3)25)2(31)3dx1dx2dx3=41=n1D(x)=3143

这说明确实采样以后求平均的方差会比原分布的方差小,均值不变。
求均值就是把随机变量消掉,而求积分并不一定,必须要是带有均值意义的积分或求和才能把随机变量消掉

回归问题

回归就是用函数去拟合给定的输入与输出。

在房价预测问题中,假设输入是房子的属性,输出是房子的价格。那么我们的估计误差就可以写为: ( f ( x , ω , b ) − y ) 2 (f(x,\omega,b)-y)^2 (f(x,ω,b)y)2。当我们认为房子的属性 x x x和价格 y y y服从一个概率分布 P ( x , y ) P(x,y) P(x,y)时,上述误差 ( f ( x , ω , b ) − y ) 2 (f(x,\omega,b)-y)^2 (f(x,ω,b)y)2就是一个随机变量。

根据前一节的理论分析,在任意给定的参数 ω , b \omega,b ω,b的条件下,这个随机变量 ( f ( x , ω , b ) − y ) 2 (f(x,\omega,b)-y)^2 (f(x,ω,b)y)2都会有相应的期望 E ( ( f ( x 1 , ω , b ) − y 1 ) 2 ) E((f(x_1,\omega,b)-y_1)^2) E((f(x1,ω,b)y1)2)和方差 D ( ( f ( x 1 , ω , b ) − y 1 ) 2 ) D((f(x_1,\omega,b)-y_1)^2) D((f(x1,ω,b)y1)2)

并且随着采样次数的增多,也就是随着搜集到的房子属性和房子价格对的增多,随机变量 1 n ∑ i = 1 n ( f ( x i , ω , b ) − y i ) 2 \frac{1}{n}\sum_{i=1}^n(f(x_i,\omega,b)-y_i)^2 n1i=1n(f(xi,ω,b)yi)2的均值 E ( 1 n ∑ i = 1 n ( f ( x i , ω , b ) − y i ) 2 ) E(\frac{1}{n}\sum_{i=1}^n(f(x_i,\omega,b)-y_i)^2) E(n1i=1n(f(xi,ω,b)yi)2)不变,方差 D ( 1 n ∑ i = 1 n ( f ( x i , ω , b ) − y i ) 2 ) D(\frac{1}{n}\sum_{i=1}^n(f(x_i,\omega,b)-y_i)^2) D(n1i=1n(f(xi,ω,b)yi)2)会逐渐减小;

当采样次数无穷化以后,此时随机变量 lim ⁡ n → ∞ 1 n ∑ i = 1 n ( f ( x i , ω , b ) − y i ) 2 \lim_{n\to\infty}\frac{1}{n}\sum_{i=1}^n(f(x_i,\omega,b)-y_i)^2 limnn1i=1n(f(xi,ω,b)yi)2的均值 E ( lim ⁡ n → ∞ 1 n ∑ i = 1 n ( f ( x i , ω , b ) − y i ) 2 ) E(\lim_{n\to\infty}\frac{1}{n}\sum_{i=1}^n(f(x_i,\omega,b)-y_i)^2) E(limnn1i=1n(f(xi,ω,b)yi)2)不变,方差 D ( lim ⁡ n → ∞ 1 n ∑ i = 1 n ( f ( x i , ω , b ) − y i ) 2 ) D(\lim_{n\to\infty}\frac{1}{n}\sum_{i=1}^n(f(x_i,\omega,b)-y_i)^2) D(limnn1i=1n(f(xi,ω,b)yi)2)为零;

也就是这时这个随机变量 lim ⁡ n → ∞ 1 n ∑ i = 1 n ( f ( x i , ω , b ) − y i ) 2 \lim_{n\to\infty}\frac{1}{n}\sum_{i=1}^n(f(x_i,\omega,b)-y_i)^2 limnn1i=1n(f(xi,ω,b)yi)2的任意一次采样值就是随机变量 lim ⁡ n → ∞ 1 n ∑ i = 1 n ( f ( x i , ω , b ) − y i ) 2 \lim_{n\to\infty}\frac{1}{n}\sum_{i=1}^n(f(x_i,\omega,b)-y_i)^2 limnn1i=1n(f(xi,ω,b)yi)2 ( f ( x , ω , b ) − y ) 2 (f(x,\omega,b)-y)^2 (f(x,ω,b)y)2本身的均值。

也就是说随机变量的均值等于随机变量采样无穷次后的平均值。
以上是从概率上考虑随机变量的均值与方差的变化趋势

回到回归问题本身的目标来说,回归的目的就是希望估计误差尽可能小,并且是针对所有的输入输出对估计误差都尽可能小,也就是:
min ⁡ ω , b ∑ x ∑ y ( f ( x , ω , b ) − y ) 2 P ( x , y ) = min ⁡ ω , b E ( ( f ( x , ω , b ) − y ) 2 ) \underset{\omega,b}{\min}\sum_{x}\sum_{y}(f(x,\omega,b)-y)^2P(x,y)=\underset{\omega,b}{\min}E((f(x,\omega,b)-y)^2) ω,bminxy(f(x,ω,b)y)2P(x,y)=ω,bminE((f(x,ω,b)y)2)

上式可以看成随机变量 ( f ( x , ω , b ) − y ) 2 (f(x,\omega,b)-y)^2 (f(x,ω,b)y)2的均值的最小化,也可以看成抽样无穷次后的随机变量 Z ∞ = lim ⁡ n → ∞ 1 n ∑ i = 1 n ( f ( x i , ω , b ) − y i ) 2 Z_{\infty}=\lim_{n\to\infty}\frac{1}{n}\sum_{i=1}^n(f(x_i,\omega,b)-y_i)^2 Z=limnn1i=1n(f(xi,ω,b)yi)2的最小化;因此可以认为是希望估计误差随机变量 ( f ( x , ω , b ) − y ) 2 (f(x,\omega,b)-y)^2 (f(x,ω,b)y)2的均值尽可能小,也可以认为是希望无穷次抽样后的随机变量的值比较小,这两者从数学意义上是相等的。由于求出期望并不简单,但是进行抽样是比较简单的,所以我们的优化往往不是针对期望进行的,而是针对采样后的平均值进行。我们可以认为最优参数就是能够最小化无穷多次抽样后的随机变量 lim ⁡ n → ∞ 1 n ∑ i = 1 n ( f ( x i , ω , b ) − y i ) 2 \lim_{n\to\infty}\frac{1}{n}\sum_{i=1}^n(f(x_i,\omega,b)-y_i)^2 limnn1i=1n(f(xi,ω,b)yi)2的数值的参数。他跟最优化期望的参数是等价的。

所以我们可以采样无穷多次,然后求出对应的 lim ⁡ n → ∞ 1 n ∑ i = 1 n ( f ( x i , ω , b ) − y i ) 2 \lim_{n\to\infty}\frac{1}{n}\sum_{i=1}^n(f(x_i,\omega,b)-y_i)^2 limnn1i=1n(f(xi,ω,b)yi)2随机变量的数值,通过调整参数 ω , b \omega,b ω,b来最小化这个随机变量 lim ⁡ n → ∞ 1 n ∑ i = 1 n ( f ( x i , ω , b ) − y i ) 2 \lim_{n\to\infty}\frac{1}{n}\sum_{i=1}^n(f(x_i,\omega,b)-y_i)^2 limnn1i=1n(f(xi,ω,b)yi)2的值,这个参数就是最优的参数。

回归问题流程:采样无穷多次,调整参数,最优化参数。

分类问题

分类问题同样是寻找函数对给定的输入输出进行拟合。根据概率中的期望与均值理论,同样是需要通过对无穷多次采样的平均值进行优化而不是直接求出期望再优化。

softmax函数

softmax函数是用于多分类问题的,在我的设想中,可以用多个阶跃函数构成的向量在进行多分类问题,softmax函数与其他函数之间的关系是什么?
其实从结果上来说,softmax函数跟多个阶跃函数组成的向量最终训练结果应该是一致的。

随机梯度下降分析

给定上面的目标函数
min ⁡ ω , b ∑ x ∑ y ( f ( x , ω , b ) − y ) 2 P ( x , y ) = min ⁡ ω , b lim ⁡ n → ∞ 1 n ∑ i = 1 n ( f ( x i , ω , b ) − y i ) 2 \begin{split} \underset{\omega,b}{\min}\sum_{x}\sum_{y}(f(x,\omega,b)-y)^2P(x,y)=\underset{\omega,b}{\min}\lim_{n\to\infty}\frac{1}{n}\sum_{i=1}^n(f(x_i,\omega,b)-y_i)^2 \end{split} ω,bminxy(f(x,ω,b)y)2P(x,y)=ω,bminnlimn1i=1n(f(xi,ω,b)yi)2

我们要通过调整参数 ω , b \omega,b ω,b来实现最小化 lim ⁡ n → ∞ 1 n ∑ i = 1 n ( f ( x i , ω , b ) − y i ) 2 \lim_{n\to\infty}\frac{1}{n}\sum_{i=1}^n(f(x_i,\omega,b)-y_i)^2 limnn1i=1n(f(xi,ω,b)yi)2的目的,显然在采样结果确定的情况下,就是通过求导实现的,而随机梯度则是在误差函数为累加形式或者期望形式时,可以通过取出某一项进行求导然后修正来实现最优化,这是为什么呢?

动态规划问题

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值