机器学习01-基础概念公式

最大似然估计

似然函数是一种关于统计模型中的参数的函数,表示模型参数的似然性。

似然函数取得最大值表示相应的参数能使统计模型最为合理。

L ( b ∣ A ) = P ( A ∣ B = b ) L(b|A)=P(A|B=b) L(bA)=P(AB=b)

假设空间

由输入空间到输出空间的所有模型映射的集合

损失函数

模型输出的预测值 f ( X ) f(X) f(X)与真实值 Y Y Y的非负实值函数

风险函数(期望损失)

模型 f ( X ) f(X) f(X)关于联合分布 P ( X , Y ) P(X,Y) P(X,Y)的平均意义下的损失

R e x p ( f ) = E p [ L ( Y , f ( X ) ) ] = ∫ x ∗ y L ( y , f ( x ) ) P ( x , y ) d x d y R_{exp}(f)=E_p[L(Y,f(X))]=\int_{x*y} L(y,f(x))P(x,y)dxdy Rexp(f)=Ep[L(Y,f(X))]=xyL(y,f(x))P(x,y)dxdy

经验风险

模型 f ( X ) f(X) f(X)关于训练数据集的平均损失

R e m p ( f ) = 1 N ∑ i = 1 n L ( y i , f ( x i ) ) R_{emp}(f)=\frac{1}{N}\sum_{i=1}^nL(y_i,f(x_i)) Remp(f)=N1i=1nL(yi,f(xi))

经验风险最小化:经验风险最小的模型就是最优的模型

m i n f ⊂ F 1 N ∑ i = 1 n L ( y i , f ( x i ) ) min_{f\subset F}\frac{1}{N}\sum_{i=1}^nL(y_i,f(x_i)) minfFN1i=1nL(yi,f(xi))

模型选择方法

结构风险最小化:结构风险最小的模型就是最优的模型;防止过拟合的策略 = 正则化

R s r m ( f ) = 1 N ∑ i = 1 n L ( y i , f ( x i ) ) + λ J ( f ) m i n f ⊂ F 1 N ∑ i = 1 n L ( y i , f ( x i ) ) + λ J ( f ) R_{srm}(f)=\frac{1}{N}\sum_{i=1}^nL(y_i,f(x_i))+\lambda J(f) min_{f\subset F}\frac{1}{N}\sum_{i=1}^nL(y_i,f(x_i))+\lambda J(f) Rsrm(f)=N1i=1nL(yi,f(xi))+λJ(f)minfFN1i=1nL(yi,f(xi))+λJ(f)

L2范数 L ( w ) = 1 N ∑ i = 1 n L ( y i , f ( x i ) ) + λ 2 ∣ ∣ w ∣ ∣ 2 L(w)=\frac{1}{N}\sum_{i=1}^nL(y_i,f(x_i))+\frac{\lambda}{2} ||w||^2 L(w)=N1i=1nL(yi,f(xi))+2λw2

L1范数 L ( w ) = 1 N ∑ i = 1 n L ( y i , f ( x i ) ) + λ ∣ ∣ w ∣ ∣ L(w)=\frac{1}{N}\sum_{i=1}^nL(y_i,f(x_i))+\lambda||w|| L(w)=N1i=1nL(yi,f(xi))+λw

过拟合

学习时选择的模型所包含的参数过多,导致模型对训练数据预测的很好,对测试数据预测的很差

泛化能力

泛化误差:理论上分析学习方法的泛化能力 f ( X ) ^ \hat{f(X)} f(X)^为学习到的模型,可理解为经验风险最小化模型
R e x p ( f ^ ) = E p [ L ( Y , f ( X ) ^ ) ] = ∫ x ∗ y L ( y , f ( x ) ^ ) P ( x , y ) d x d y R_{exp}(\hat{f})=E_p[L(Y,\hat{f(X)})]=\int_{x*y} L(y,\hat{f(x)})P(x,y)dxdy Rexp(f^)=Ep[L(Y,f(X)^)]=xyL(y,f(x)^)P(x,y)dxdy

生成模型

由数据学习联合概率分布 P ( X , Y ) P(X,Y) P(X,Y),然后求出条件概率分布 P ( Y ∣ X ) P(Y|X) P(YX)作为预测模型,即生成模型

P ( Y ∣ X ) = P ( X , Y ) P ( X ) P(Y|X)=\frac{P(X,Y)}{P(X)} P(YX)=P(X)P(X,Y)

特点:生成方法可还原出联合概率分布 P ( X , Y ) P(X,Y) P(X,Y),而判别方法则不能;生成方法的学习收敛速度更快,即当样本容量增加的时候,学到的模型可以更快的收敛于真实模型;当存在隐变量时,仍可以用生成方法学习,但判别方法不能用

  • 朴素贝叶斯法
  • 隐马尔可夫模型

判别模型

由数据直接学习决策函数 f ( X ) f(X) f(X)或条件概率分布 P ( Y ∣ X ) P(Y|X) P(YX)作为预测模型,即判别模型
特点:直接面对预测,往往学习的准确率更高;由于直接学习 f ( X ) f(X) f(X) P ( Y ∣ X ) P(Y|X) P(YX),可以对数据进行各种程度上的抽象,定义特征并使用特征,因此可以简化学习问题

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值