【台大李宏毅机器学习】机器学习基本概念

HanslerLi

于 2022-07-14 20:23:42 发布

阅读量601

点赞数

分类专栏：深度学习-台大李宏毅文章标签：机器学习人工智能深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_45841983/article/details/125792176

版权

深度学习-台大李宏毅专栏收录该内容

1 篇文章

订阅专栏

【台大李宏毅机器学习】机器学习基本概念

机器学习简介
- Step1 Function with unknown
- Step2 define loss from training data

机器学习简介

Machine Learning is so simple …

本章节宏毅讲机器学习的三个步骤：

Step 1: function with unknown
Step 2: define loss from training data
Step 3: optimization
(Step1 ~ Step3称为Training，即我们说的训练、炼丹)

Step1 Function with unknown

线性模型太简单了，y = wx+b, w影响斜率，b影响截距，仅仅使用线性模型有很大局限性。 Model Bias

对于折线的模拟，可以设 f = constant + sum of a set of sigmoid.

Simoid Function
$\frac{1}{1+{e}^{-(b+wx_1)}} = c*sigmoid(b+wx_1)$

通过修改参数，我们可以得到不同形状的sigmoid函数，以近似不同的情况：

修改w，函数的斜率发生改变；

修改b，函数发生左移右移；

修改c，函数高度发生改变；

引入多个特征, 公式中j表示特征个数，

$y=b+wx_1 \rightarrow y=b+\sum\limits_{j} w_j x_j$

将多特征的情况引入函数中，新的sigmoid function为：

$\sum\limits_{i}c_i*sigmoid(b+\sum\limits_{j}w_{ij}x_j)$

将上述公式经过推导后，得到矩阵形式的计算公式：

$c^T \sigma(b+wx)$

该公式为上述Step1中那个有未知参量的公式的一般形式。

Step2 define loss from training data

更换模型/function后，loss也是计算预测与真实值的差距。

$\theta^* = arg \min\limits_{\theta} L$

(Randomly) Pick initial values $\theta^0$
Compute gradient以更新参数, $\nabla L(\theta^0)$
update $\theta^1 \Leftarrow \theta^0 - \eta g$
…
continue update $\theta^{i+1} \leftarrow \theta^i - \eta g$

实际上，在训练中随机将训练集分为batch，长度N的数据集按照size=B划分[N/B]个batch，而不是拿L来计算gradient。

1 epoch = see all the batches once

hypeparameter 超参数: 人设定值的参数

Example 1

10000 examples(N=10000)
Batch size is 10(B=10)

How many update in 1 epochs?
N/B = 1000 updates

ReLU

常用的也不是soft sigmoid一种，还有一种经典的激活函数是ReLU.

Rectified Linear Unit(ReLU)的公式表示：

$y = c* max(0, b+wx_1)$

要使用ReLU替代Sigmoid，公式更改为：

$\sum\limits_{2i} c_i max(0, b_i+ \sum\limits_{j}w_{ij}x_j)$

Which one is better?

输出层常用softmax、sigmoid，隐藏层常用ReLU.

Deep Learning

神经网络的重生之我是深度学习

Hidden Layer 代表一层中很多的 Neuron， Many layers means Deep。故Neural Network的应用被称为Deep Learning。

Why we want “Deep” network, not “Fat” network? AlexNet 8 layers, while ResNet 152 layers.

Overfitting : Better on training data, worse on unseen data.

过拟合的主要特征，在训练集上表现超级好，但是在没训练过的数据表现不太行；与之相关的还有欠拟合，欠拟合就是在训练集上也并没有表现特别好，还有学习的空间。

视频传送门
课程视频获取地址：
李宏毅《机器学习/深度学习》国语课程(2021)_哔哩哔哩_bilibili
本节笔记为视频中机器学习基本概念。
课程ppt及其他资料获取地址：
https://speech.ee.ntu.edu.tw/~hylee/ml/2021-spring.html

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

HanslerLi 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。