【李宏毅机器学习笔记2】第一节深度学习基本概念简介（下）

freezing001

已于 2022-04-20 00:03:20 修改

阅读量578

点赞数 1

分类专栏：深度学习文章标签：深度学习机器学习

于 2022-04-18 10:11:02 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_45498940/article/details/124235632

版权

深度学习专栏收录该内容

2 篇文章 0 订阅

订阅专栏

接（上）

线性模型无法真的模拟真实情况，称为model bias。
All Piecewise Linear Curves=constant（常数） + sum of a set of (linear curves)只要有足够多的简单曲线就可以无限逼近连续的曲线。
假设x和y的关系很复杂也无妨，想办法写一个带有未知数的function（即为蓝色function+常数），蓝色function可以用sigmoid function来逼近。通过调整b,w,c,即可获得不同形状的sigmoid。有了不同的sigmoid也就可以逼近不同的piecewise linear（分段线性）的function，然后又可以拿来近似各种不同的continues的function.

在这里插入图片描述
接下来将分别介绍机器学习训练的三步：

1.构建含有未知参数的function:
- eg:上面的是前一天的点击率，下面是前28天的点击率
- 其中j表示的是feature的个数，i表示的是有多少个blue curve也就是sigmoid function。wij表示在第i个sigmoid里面乘给第j个feature的权重。r1、r2、r3和三个参数的关系如下所示。
- 括号里面的用r来表示
  
  问答：①sigmoid越多，产生的线段越多，产生的分段函数越复杂，就可以越逼近连续曲线。
2.定义训练数据的loss function
3.optimization优化

对每一个参数都拿去计算对L的微分，集合起来就是一个向量，即为gradient.

实际上在更新参数时：往往将一大笔资料N随机划分为一个一个的batch B，就是划分为一个一个的组B。
- update和epoch的区别：update:每次更新一次参数；epoch:把所有的Batch都看过一遍
- 还可以做其他的改动：activation function
  
  叠加两个ReLu才可以得到hard sigmoid。
- 给神经网络重命名：Deep = Many hidden layers
  - Why we want “Deep” network, not “Fat” network?这个问题还有待解决：）
- 过拟合Overfitting：在训练的结果上很好，但是在测试集上的结果并不理想。
- 关于如何选择模型下次课会继续讲解

持续更新~~~

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
【李宏毅机器学习笔记2】第一节深度学习基本概念简介（下）

接（一）线性模型无法真的模拟真实情况，称为model bias。All Piecewise Linear Curves=constant（常数） + sum of a set of (linear curves)只要有足够多的简单曲线就可以无限逼近连续的曲线。假设x和y的关系很复杂也无妨，想办法写一个带有未知数的function（即为蓝色function+常数），蓝色function可以用sigmoid function来逼近。通过调整b,w,c,即可获得不同形状的sigmoid。有了不同的si
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。