机器学习三要素

机器学习三要素

方法=模型+策略+算法

  1. 模型 f ( X ) f(X) f(X)

    • 模型 f ( X ) f(X) f(X) 的假设空间 F \mathcal{F} F:包含所有可能的条件概率分布或决策函数。
    • 假设空间 定义为 决策函数的集合:
      • F = { f ∣ Y = f ( X ) } \mathcal{F}=\{f|Y=f(X)\} F={fY=f(X)},其中, X X X Y Y Y 是定义在输入空间 X \mathcal{X} X 和输出空间 Y \mathcal{Y} Y 上的变量
      • F = { f ∣ Y = f θ ( X ) , θ ∈ R n } \mathcal{F}=\{f|Y=f_{\theta}(X), \theta\in R^n\} F={fY=fθ(X),θRn},其中, θ \theta θ 称为参数空间(parameter space),取值于 n n n 维欧式空间 R n R^n Rn
    • 假设空间定义为条件概率的集合:
      • F = { P ∣ P ( Y ∣ X ) } \mathcal{F}=\{P|P (Y|X)\} F={PP(YX)}
      • F = { P ∣ P θ ( Y ∣ X ) , θ ∈ R n } \mathcal{F}=\{P|P_\theta (Y|X), \theta\in R^n\} F={PPθ(YX),θRn}
  2. 策略

    • 损失和风险

      • 损失函数度量模型一次预测的好坏,风险函数度量平均意义下模型预测的好坏

      • 常用的损失函数

        (1) 0 − 1 0-1 01 损失函数(0-1 loss function): L ( Y , f ( X ) ) = { 1 , Y ≠ f ( X ) 0 , Y = f ( X ) L(Y,f(X))=\begin{cases} 1, & {Y \neq f(X)} \\ 0, & {Y=f(X)} \end{cases} L(Y,f(X))={1,0,Y̸=f(X)Y=f(X)

        (2)平方损失函数(quadratic loss function): L ( Y , f ( X ) ) = ( Y − f ( x ) ) 2 L(Y,f(X))=(Y-f(x))^{2} L(Y,f(X))=(Yf(x))2

        (3)绝对损失函数(absolute loss function): L ( Y , f ( X ) ) = ∣ Y − f ( x ) ∣ L(Y,f(X))=|Y-f(x)| L(Y,f(X))=Yf(x)

        (4)对数损失函数(logarithmic loss function)或 对数似然损失函数(log-likelihood loss function): L ( Y , P ( Y ∣ X ) ) = − log ⁡ P ( Y ∣ X ) ) L(Y,P(Y|X))=-\log P(Y|X)) L(Y,P(YX))=logP(YX))

      • 风险函数(risk function)或 期望损失(expected loss):即损失函数的期望

        R e x p ( f ) = E P [ L ( Y , f ( X ) ) ] = ∫ X × Y L ( y , f ( x ) ) P ( x , y ) d x d y R_{exp}(f)=E_{P}[L(Y,f(X))]=\int_{\mathcal{X}\times\mathcal{Y}}L(y,f(x))P(x,y)dxdy Rexp(f)=EP[L(Y,f(X))]=X×YL(y,f(x))P(x,y)dxdy

      • 经验风险(empirical risk)或 经验损失(empirical loss):模型 f ( X ) f(X) f(X) 关于训练集 T T T 的平均损失

        R e m p ( f ) = 1 N ∑ i = 1 N L ( y i , f ( x i ) ) , 当 N → ∞ 时 , R e m p ( f ) ≈ R e x p ( f ) 。 R_{emp}(f)=\frac{1}{N}\sum^{N}_{i=1}L(y_{i},f(x_{i})),当N\to\infty时,R_{emp}(f)\approx R_{exp}(f)。 Remp(f)=N1i=1NL(yi,f(xi))NRemp(f)Rexp(f)

        根据大数定律,当样本容量趋于无穷时,经验损失趋于期望损失。所以一个很自然的想法是用经验损失 来估计 期望损失

    • 监督学习的两个基本策略经验风险最小化结构风险最小化

    • 经验风险最小化:经验风险最小的模型是最优的模型

      min ⁡ f ∈ F R e m p ( f ) = min ⁡ f ∈ F 1 N ∑ i = 1 N L ( y i , f ( x i ) ) \min_{f\in\mathcal{F}}R_{emp}(f)=\min_{f\in\mathcal{F}}\frac{1}{N}\sum^{N}_{i=1}L(y_{i},f(x_{i})) fFminRemp(f)=fFminN1i=1NL(yi,f(xi))

    • 结构风险最小化(正则化)(structural risk minimization,SRM):结构风险最小的模型是最优的模型

      • 结构风险

        • 结构风险:经验风险 + 正则化项(regularizer)或罚项(penalty term)
          R s r m ( f ) = R e m p ( f ) + λ J ( f ) = 1 N ∑ i = 1 N L ( y i , f ( x i ) ) + λ J ( f ) R_{srm}(f)=R_{emp}(f)+\lambda J(f)=\frac{1}{N}\sum^{N}_{i=1}L(y_{i},f(x_{i}))+\lambda J(f) Rsrm(f)=Remp(f)+λJ(f)=N1i=1NL(yi,f(xi))+λJ(f)
        • J ( f ) J(f) J(f) 为模型的复杂度,是定义在假设空间 F \mathcal{F} F 上的泛函。
          • 模型 f f f 越复杂, J ( f ) J(f) J(f) 就越大;模型 f f f 越简单, J ( f ) J(f) J(f) 就越小。
        • λ ≥ 0 \lambda\geq0 λ0 ,是一个系数,用以权衡经验风险和模型复杂度
      • 结构风险最小化
        min ⁡ f ∈ F R s r m ( f ) = min ⁡ f ∈ F 1 N ∑ i = 1 N L ( y i , f ( x i ) ) + λ J ( f ) \min_{f\in\mathcal{F}}R_{srm}(f)=\min_{f\in\mathcal{F}}\frac{1}{N}\sum^{N}_{i=1}L(y_{i},f(x_{i}))+\lambda J(f) fFminRsrm(f)=fFminN1i=1NL(yi,f(xi))+λJ(f)

  3. 算法

    • 机器学习问题归结为最优化问题
    • 机器学习的算法成为 求解最优化问题(损失/风险最小化)的算法
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值