【李宏毅机器学习笔记2】第一节 深度学习基本概念简介(下)

接(上)

  • 线性模型无法真的模拟真实情况,称为model bias。
    在这里插入图片描述
  • All Piecewise Linear Curves=constant(常数) + sum of a set of (linear curves)只要有足够多的简单曲线就可以无限逼近连续的曲线。
    在这里插入图片描述
  • 假设x和y的关系很复杂也无妨,想办法写一个带有未知数的function(即为蓝色function+常数),蓝色function可以用sigmoid function来逼近。通过调整b,w,c,即可获得不同形状的sigmoid。有了不同的sigmoid也就可以逼近不同的piecewise linear(分段线性)的function,然后又可以拿来近似各种不同的continues的function.

在这里插入图片描述
接下来将分别介绍机器学习训练的三步:

  • 1.构建含有未知参数的function:

    • eg:上面的是前一天的点击率,下面是前28天的点击率
      在这里插入图片描述
    • 其中j表示的是feature的个数,i表示的是有多少个blue curve也就是sigmoid function。wij表示在第i个sigmoid里面乘给第j个feature的权重。r1、r2、r3和三个参数的关系如下所示。
      在这里插入图片描述
    • 括号里面的用r来表示
      在这里插入图片描述
      在这里插入图片描述
      ​ 问答:①sigmoid越多,产生的线段越多,产生的分段函数越复杂,就可以越逼近连续曲线。
      在这里插入图片描述
  • 2.定义训练数据的loss function
    在这里插入图片描述

  • 3.optimization优化

    对每一个参数都拿去计算对L的微分,集合起来就是一个向量,即为gradient.

    实际上在更新参数时:往往将一大笔资料N随机划分为一个一个的batch B,就是划分为一个一个的组B。
    在这里插入图片描述
    在这里插入图片描述

    • update和epoch的区别:update:每次更新一次参数;epoch:把所有的Batch都看过一遍

    • 还可以做其他的改动:activation function

      叠加两个ReLu才可以得到hard sigmoid。
      在这里插入图片描述
      在这里插入图片描述

    • 给神经网络重命名:Deep = Many hidden layers

      • Why we want “Deep” network, not “Fat” network?这个问题还有待解决:)
    • 过拟合Overfitting:在训练的结果上很好,但是在测试集上的结果并不理想。

    • 关于如何选择模型下次课会继续讲解

持续更新~~~

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值