[机器学习]Lecture 2(Basic theory):浅谈机器学习原理

文章探讨了机器学习的基础思想,强调了模型复杂度(|H|)与过拟合的关系,以及损失函数在优化过程中的作用。讨论了选取坏的训练数据集(Dtrain)的概率,并指出增加样本数量或调整模型复杂度可以改善这一情况。深度学习作为解决模型复杂度与性能之间平衡的一种方法也被提及。
摘要由CSDN通过智能技术生成

目录

Review: Basic Idea of ML

Step 1: Function with Unknown Parameters

Step 2: Loss of a function

Step 3: Optimization

关于sample训练资料的讨论


浅谈机器学习原理

——再探宝可梦、数码宝贝分类器

Review: Basic Idea of ML

More parameters, easier to overfit.

Step 1: Function with Unknown Parameters

H表示未知参数h所有可能取值的集合

|H|表示在H里面有多少可能的选择,这个可能选择的数目叫做模型的复杂程度

Step 2: Loss of a function

Step 3: Optimization

Training Examples

 

 What do we want? We want to sample good Dtrain.

关于sample训练资料的讨论

下面讨论sample到一组坏的训练资料的几率有多大,这个讨论具有普适性,与model、loss function这些都没有关系。首先定义什么叫做不好的Dtrain,如下图:

如下图,选取到不好的Dtrain的概率会小于图中红框部分的概率(红框中的概率是Dtrain is bad的概率的上界,但是在实际中,红框部分概率很容易出现大于1的情况,这时候这个上界的值是没有作用的)。降低这个上界的办法是使用更大的N(sample更多的训练资料)或降低|H|的值(|H|在上面有解释)

通常来说,训练资料的数量在实际应用中不是由我们自己决定的,而改变|H|的大小,如下图,large |H|会使得理想与现实相差很大,而small |H|会使得理想变得很差,要想鱼与熊掌兼得——Deep learning。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值