机器学习——学习理论

一、经验风险最小化
1.1 经验风险最小化理论
  考虑线性分类模型 h θ ( x ) = g ( θ T x ) g ( z ) = 1 { z ≥ 0 } h_{\bm\theta}(\bm{x}) = g(\bm\theta^T\bm{x}) \\ g(z) = 1\{z \ge 0\} hθ(x)=g(θTx)g(z)=1{z0}考虑训练样本 { ( x ( i ) , y ( i ) ) } i = 1 m \{(\bm{x}^{(i)}, y^{(i)})\}_{i=1}^m {(x(i),y(i))}i=1m,定义训练偏差 ϵ ^ ( h θ ) = ∑ i = 1 m 1 { h θ ( x ( i ) ) ≠ y ( i ) } / m \hat\epsilon(h_{\bm\theta}) = \sum_{i=1}^m1\{h_{\bm\theta}(\bm{x}^{(i)}) \ne y^{(i)}\} / m ϵ^(hθ)=i=1m1{hθ(x(i))=y(i)}/m即训练样本分类错误所占的比例。对于非训练样本的同分布样本,定义一般误差 ϵ ( h θ ) = p ( h ( x ) ≠ y ) \epsilon(h_{\bm\theta}) = p(h(\bm{x}) \ne y) ϵ(hθ)=p(h(x)=y)机器学习的目的是选用参数值使训练误差最小化,也成为经验风险最小化【Empirical Risk Minimization,ERM】,形如 θ ^ = a r g m i n   ϵ ^ ( h θ ) \hat\bm\theta = argmin\ \hat\epsilon(h_{\bm\theta}) θ^=argmin ϵ^(hθ)  从另一个方向讲,定义线性分类算法的集合 H = { h θ , θ ∈ R p × 1 } H = \{h_{\bm\theta}, \bm\theta \in \bm{R}^{p×1}\} H={hθ,θRp×1}那么ERM也可以定义为 h ^ = a r g m i n h ∈ H   ϵ ^ ( h ) \hat{h} = argmin_{h \in H}\ \hat\epsilon(h) h^=argminhH ϵ^(h)更一般的,对于任意算法,包括深度学习等,上述表述均成立。ERM是一种合理的算法,可以带来较小的一般误差。

1.2 一致收敛
  首先介绍联合界引理,令 A 1 , . . . A k A_1, ...A_k A1,...Ak表示k个事件,其不一定独立,则 P ( A 1 ∪ A 2 ∪ . . . ∪ A k ) ≤ P ( A 1 ) + . . . + P ( A k ) P(A_1\cup A_2 \cup ... \cup A_k) \le P(A_1) + ... + P(A_k) P(A1A2...Ak)P(A1)+...+P(Ak)直观来讲,概率图的并集不大于每个概率图之和。
  再介绍霍夫丁【Hoeffding】不等式,对于独立同分布的随机变量 z 1 , . . . , z m z_1, ..., z_m z1,...,zm,其服从于均值为 ϕ \phi ϕ的伯努利分布,即 ϕ ^ = ∑ i = 1 m z i / m \hat\phi = \sum_{i=1}^m z_i / m ϕ^=i=1mzi/m对于给定的 γ \gamma γ,有 p ( ∣ ϕ ^ − ϕ ∣ > γ ) ≤ 2 e x p { − 2 γ 2 m } p(|\hat\phi - \phi| > \gamma) \le 2exp\{-2\gamma^2m\} p(ϕ^ϕ>γ)2exp{2γ2m}其直观意义为,根据中心极限定理,大量样本估计的 ϕ ^ \hat\phi ϕ^会收敛到 ϕ \phi ϕ为中心的高斯分布,而 γ \gamma γ从高斯分布上取得了估计偏差的概率。但实际上,霍夫丁不等式对任意样本数量均成立。
  令H为包含k个假设的集合 H = { h k } H = \{h_k\} H={hk},其中的元素均是无参数的映射。对于给定数据集,从k个函数中选取一个,使得训练误差最小,形如 h ^ = a r g m i n h ∈ H   ϵ ^ ( h ) \hat{h} = argmin_{h \in H}\ \hat\epsilon(h) h^=argminhH ϵ^(h)ERM理论认为,训练误差是一个对一般误差很好的近似,即若训练误差最小化,那么一般误差也不会太大。
  考虑逻辑回归中,任选 h ∈ H h \in H hH,并定义 z i = 1 { h ( x ( i ) ) ≠ y ( i ) } z_i = 1\{h(\bm{x}^{(i)}) \ne y^{(i)}\} zi=1{h(x(i))=y(i)}那么 p ( z i = 1 ) = ϵ ^ ( h ) = ∑ i = 1 m z i / m \begin{aligned}p(z_i = 1)& = \hat\epsilon(h) \\ &= \sum_{i=1}^m z_i / m \end{aligned} p(zi=1)=ϵ^(h)=i=1mzi/m根据霍夫丁不等式,有 p ( ∣ ϵ ( h ) − ϵ ^ ( h ) ∣ > γ ) ≤ 2 e x p { − 2 γ 2 m } p(|\epsilon(h) - \hat\epsilon(h)| > \gamma) \le 2exp\{-2\gamma^2m\} p(ϵ(h)ϵ^(h)>γ)2exp{2γ2m}即训练误差是一般误差的很好的估计。再定义事件 A A A ∣ ϵ ( h ) − ϵ ^ ( h ) ∣ > γ |\epsilon(h) - \hat\epsilon(h)|> \gamma ϵ(h)ϵ^(h)>γ,即训练误差与一般误差相差较大,那么 p ( A ) ≤ 2 e x p { − 2 γ 2 m } p(A) \le 2exp\{-2\gamma^2m\} p(A)2exp{2γ2m}那么对于H内的所有映射,发生训练误差与一般误差相差较大的概率为 p ( A 1 ∪ A 2 ∪ . . . ∪ A m ) ≤ ∑ i = 1 k p ( A i ) ≤ 2 k e x p { − 2 γ 2 m } \begin{aligned} p(A_1\cup A_2 \cup ... \cup A_m) \le& \sum_{i=1}^kp(A_i) \\ \le& 2kexp\{-2\gamma^2m\} \end{aligned} p(A1A2...Am)i=1kp(Ai)2kexp{2γ2m}那么一般误差与训练误差相差较小的概率为 p ( A ˉ ) ≥ 1 − 2 k e x p { − 2 γ 2 m } p(\bar{A}) \ge 1 - 2kexp\{-2\gamma^2m\} p(Aˉ)12kexp{2γ2m}即在一定的概率下,H中的所有h,都使得一般误差与训练误差相差在 γ \gamma γ内。当 m m m足够大时,H内的所有训练误差均收敛于一般误差,这称为一致收敛。
  根据一致收敛理论,给定 γ \gamma γ与容错率 σ \sigma σ,可以计算出所需的样本数量 m m m。令 σ = 2 k e x p { − 2 γ 2 m } \sigma = 2kexp\{-2\gamma^2m\} σ=2kexp{2γ2m}那么 m ≥ 1 / 2 σ 2 ⋅ l o g ( 2 k / σ ) m \ge 1/2\sigma^2·log(2k / \sigma) m1/2σ2log(2k/σ)使得在 1 − σ 1 - \sigma 1σ的概率下, ∣ ϵ ( h ) − ϵ ^ ( h ) ∣ ≤ γ |\epsilon(h) - \hat\epsilon(h)| \le \gamma ϵ(h)ϵ^(h)γ对所有H中的映射成立,这称为样本复杂度界。计算机科学一般认为, ∀ k , l o g k ≤ 30 \forall k, log k \le 30 k,logk30,即在H中追加映射,样本数量也不会有太多的提升。一般来讲,在求解界时,一些常量是无关紧要的,故可以写成 m = O ( 1 / σ 2 ⋅ l o g ( k / σ ) ) m = O(1/\sigma^2·log(k / \sigma)) m=O(1/σ2log(k/σ))同理,根据一致收敛理论,给定容错率 σ \sigma σ与样本数 m m m,可以计算出偏差 γ = ( 1 / 2 m ⋅ l o g ( 2 k / σ ) ) 1 / 2 \gamma = (1/2m·log(2k/\sigma))^{1/2} γ=(1/2mlog(2k/σ))1/2

1.3 偏差方差权衡
  在一致收敛的条件下,有 ∀ h ∈ H , ∣ ϵ ( h ) − ϵ ^ ( h ) ∣ ≤ γ \forall h \in H, |\epsilon(h) - \hat\epsilon(h)| \le \gamma hH,ϵ(h)ϵ^(h)γ。根据ERM理论,令 h ^ = a r g m i n h ∈ H   ϵ ^ ( h ) \hat{h} = argmin_{h \in H}\ \hat\epsilon(h) h^=argminhH ϵ^(h)并定义取得最小一般误差的映射 h ^ ∗ = a r g m i n h ∈ H   ϵ ( h ) \hat{h}^* = argmin_{h \in H}\ \epsilon(h) h^=argminhH ϵ(h)根据一致收敛理论,有 ϵ ( h ^ ) ≤ ϵ ^ ( h ^ ) + γ ≤ ϵ ^ ( h ^ ∗ ) + γ ≤ ϵ ( h ^ ∗ ) + 2 γ \begin{aligned} \epsilon(\hat{h}) &\le \hat\epsilon(\hat{h}) + \gamma \\&\le \hat\epsilon(\hat{h}^*) + \gamma \\&\le \epsilon(\hat{h}^*) + 2\gamma \end{aligned} ϵ(h^)ϵ^(h^)+γϵ^(h^)+γϵ(h^)+2γ因此在 H H H为有限集的情况下,给定容错率 σ \sigma σ与样本数 m m m,有 ϵ ( h ^ ) ≤ m i n h ∈ H   ϵ ( h ) + 2 ( 1 / 2 m ⋅ l o g ( 2 k / σ ) ) 1 / 2 \epsilon(\hat{h}) \le min_{h \in H}\ \epsilon(h) + 2(1/2m·log(2k/\sigma))^{1/2} ϵ(h^)minhH ϵ(h)+2(1/2mlog(2k/σ))1/2即训练误差最小的映射与一般误差最小的映射的误差在一定范围内。
  对于不同的拟合,若增大H内映射的数量,那么 ϵ \epsilon ϵ项可能会减小,但 γ \gamma γ项的 k k k会增大,这种现象称为偏差方差权衡,即使用更多的假设,可能找到更好的函数拟合模型,但不能精确拟合模型的风险也随之提高。
  概括来讲,在模型过于简单时,训练误差与一般误差的偏差较小,但误差过高,称为欠拟合;在模型过于复杂时,训练误差降低,但训练误差与一般误差的偏差过高,称为过拟合。


二、VC维度
2.1 分散与VC维
  给定一个由d个点构成的集合 S = { x ( d ) } S = \{x^{(d)}\} S={x(d)},如果一个假设类 H H H能够实现集合 S S S的任意一种标记方式,称为 H H H能够分散 S S S。类 H H H能够分散的最大集合 S S S的大小称为 H H H的VC【Vapnik-Chervonenkis】维度,记 V C ( H ) VC(H) VC(H)
  考虑二维空间的线性分类器,存在某种分布3个样本点能被 H H H分散,但任何分布的4个样本点都不能被 H H H分散,即其VC维为3。而 n n n维空间的VC维为 n + 1 n + 1 n+1

2.2 无限维经验风险最小化理论
  对于包含k个假设的集合 H = { h k } H = \{h_k\} H={hk},ERM理论认为,在 1 − σ 1 - \sigma 1σ的概率下,一致收敛所需要的样本数量为 m = O ( 1 / σ 2 ⋅ l o g ( k / σ ) ) m = O(1/\sigma^2·log(k/\sigma)) m=O(1/σ2log(k/σ))一般来讲,一个线性决策边界组成的 h k h_k hk,其参数以 d d d个实数作为参数,考虑 n n n维逻辑回归问题,则 h k h_k hk n + 1 n + 1 n+1个实数作为参数。那么在计算机科学中,由于二进制浮点数的限制,所有k个假设的 d d d的组合情况是有限的,即 k = 2 ( d c ) k = 2^{(dc)} k=2(dc)其中 c c c是数据位数,故 m ≥ 1 / 2 σ 2 ⋅ l o g ( 2 k / σ ) = O ( d ⋅ l o g ( 1 / σ ) / σ 2 ) \begin{aligned} m &\ge 1/2\sigma^2·log(2k / \sigma) \\ &= O(d·log(1/\sigma)/\sigma^2) \end{aligned} m1/2σ2log(2k/σ)=O(dlog(1/σ)/σ2)即所需的样本必须是上述式的数量级,其表明了所需的样本大致与假设类的参数数目呈线性关系。而不考虑计算机科学,有一种更加正确的表述。
  Vapnik与Chervonenkis证明了,给定集合 H H H,令 V C ( H ) = d VC(H) = d VC(H)=d,那么在 1 − σ 1 - \sigma 1σ的概率下,有 ∣ ϵ ( h ) − ϵ ^ ( h ) ∣ ≤ O ( ( d / m ⋅ l o g ( m / d ) + 1 / m ⋅ l o g ( 1 / σ ) ) 1 / 2 ) |\epsilon(h) - \hat\epsilon(h)| \le O((d/m·log(m/d)+1/m·log(1/\sigma))^{1/2}) ϵ(h)ϵ^(h)O((d/mlog(m/d)+1/mlog(1/σ))1/2)即一致收敛,以及在 1 − σ 1 - \sigma 1σ的概率下,有 ϵ ( h ^ ) ≤ m i n h ∈ H   ϵ ( h ) + O ( ( d / m ⋅ l o g ( m / d ) + 1 / m ⋅ l o g ( 1 / σ ) ) 1 / 2 ) \epsilon(\hat{h}) \le min_{h \in H}\ \epsilon(h) + O((d/m·log(m/d)+1/m·log(1/\sigma))^{1/2}) ϵ(h^)minhH ϵ(h)+O((d/mlog(m/d)+1/mlog(1/σ))1/2)在满足一致收敛的条件下,有 m = O ( d ) m = O(d) m=O(d)即样本量需要与 H H H的VC维呈线性关系。

2.3 SVM的VC维
  事实证明,即使使用核函数将样本映射到高维空间,具有较大间隔的线性分类器的假设类依然有比较低的VC维。考虑一定数量的样本点,其假设类包含了以较大的间隔分隔点集合的边界。若仅考虑半径为 R R R范围内的样本点,以及间隔至少为 γ \gamma γ的线性分类器构成的假设类 H H H,那么 V C ( H ) ≤ ⌈ R 2 / 4 γ 2 ⌉ + 1 VC(H)\le \lceil R^2/4\gamma^2 \rceil + 1 VC(H)R2/4γ2+1即仅包含较大间隔线性分类器的假设类的VC维是有上界的。其表明VC维的上界不依赖于样本的维度。
  ERM的损失函数可以认为是 1 { h θ ( x ) ≠ y } 1\{h_\bm\theta(\bm{x}) \ne y\} 1{hθ(x)=y},目的是选取 θ \bm\theta θ使得其最小,是一个非凸的阶跃函数。而逻辑回归,SVM都可以看作该问题的一种凸性近似。


三、模型选择算法
  根据ERM,偏差和方差之间存在权衡,即不应该选择过于简单或者过于复杂的模型。模型选择算法提供了一类方法,可以自动的在偏差与方差之间权衡。

3.1 保留交叉验证
  保留交叉验证是一种标准的模型选取方法,将给定的训练集随机划分为两个子集,一个称为训练子集,另一个称为保留交叉验证子集。使用训练子集训练模型,并使用保留交叉验证子集进行测试,选择最小测试误差的模型作为结果。
  一般的,训练子集占有训练集的70%,保留交叉验证子集占有30%,之后可以使用100%的数据对选出的模型进行重新训练。

3.2 k重交叉验证
  有时,数据的获取是困难的,使用30%的数据来选择模型的代价过大。因此,为了提高数据的使用率,使用保留交叉验证的一种变种,称为k重交叉验证。
  考虑训练集,将其划分为k部分,通常情况下,k的取值为5或10。重复的使用其中k-1个部分进行训练,并使用剩余的部分进行测试,最后将k个结果求取平均,选择最小测试误差的模型作为结果,并使用100%的数据对选出的模型进行重新训练。其明显的缺点为需要大量的计算。
  对于m个样本时,k取m-1的情况,称为留1交叉验证,适用于样本较少的情况。


四、特征选择
  对于很多机器学习问题,需要面对非常高维的特征空间,输入特征向量 x \bm{x} x的维数可能非常高,可能会引起过拟合问题。减少特征数量,也许可以减少学习算法的方差,降低过拟合的风险。

4.1 封装特征选择算法
  前向搜索算法是一种特征选择的有效方法。其算法流程为
  (1)初始化特征子集 F F F ∅ ∅
  (2)对于第i个特征 x i x_i xi,分别尝试加入到 F F F中,对模型进行交叉验证。
  (3) F = F ∪ x i F = F \cup x_i F=Fxi,其中 x i x_i xi是效果最好的特征。并迭代(2)-(3),知道到达结束条件,如模型指标,特征数量。
  同理的后向搜索算法是也一种特征选择的有效方法。
  上述算法像一个包装一样封装在学习算法外面,即进行特征选择时,需要重复的使用学习算法训练模型,并根据模型的结果选择特征子集,其称为封装特征选择算法。其主要的缺点是需要大量的计算。

4.2 过滤特征选择算法
  该算法的一般误差不会太低,从而导致假设的工作效果不是很好,但其的计算量较小。其基本思想为,对于每个特征,尝试计算一些衡量标准,衡量其对结果的影响,并选出最具有代表性的特征。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值