Datawhale Al夏令营 -- Task1 学习笔记

yangwt2022

于 2024-08-26 15:04:13 发布

阅读量402

点赞数 9

文章标签：学习笔记

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/yangwt2022/article/details/141564433

版权

Datawhale Al夏令营 – Task1 学习笔记

1. 机器学习的基本概念

概述: 机器学习让机器具备“学习”能力，核心是通过找到合适的函数来完成特定任务。
回归任务:
- 定义: 回归任务是机器学习的一种任务类型，目标是找到一个函数，其输出是一个连续的数值（标量）。
- 例子: 预测未来某一时间的PM2.5数值。
分类任务:
- 定义: 分类任务让机器选择一个类别，输出是从设定好的选项中选择一个。
- 例子: 垃圾邮件分类。
结构化学习:
- 定义: 结构化学习不仅仅输出一个数值或类别，还可以生成有结构的对象，如图像或文章。

2. 回归任务

定义: 通过已知数据，找到一个连续输出的函数。
关键点: 回归模型通常用于预测未来的数值，如温度、股价等。

3. 分类任务

定义: 分类任务输出的是离散的类别，而不是连续的数值。
关键点: 电子邮件分类、图像识别都是常见的分类任务。

4. 案例学习：视频点击次数预测

实际应用的具体步骤和理解

(1) 定义模型:

步骤: 首先，需要选择一个数学模型来预测视频的观看次数。模型的选择基于输入数据的性质。例如，在本例中，模型的形式可以设定为一个线性模型： $y = b + wx_1$ ，其中：
- $y$ 是预测的观看次数，
- $x_1$ 是前一天的观看次数，
- $w$ 和 $b$ 是待定的参数。
理解: 这个步骤的关键是选择一个能够捕捉数据关系的模型结构。线性模型是最简单的形式之一，它假设观看次数与前一天的观看次数之间存在线性关系。

(2) 定义损失函数:

步骤: 损失函数用于衡量模型预测结果与实际结果之间的差距。损失函数 $L (w, b)$ 可以通过以下方式定义：
- 平均绝对误差（MAE）: $L(w, b) = (1/N) ∑ |y_i - (b + wx_i)|$
- 均方误差（MSE）: $L(w, b) = (1/N) ∑ (y_i - (b + wx_i))^2$
- 其中， $N$ 是样本的数量， $y_i$ 是实际观看次数， $x_i$ 是对应的前一天的观看次数。
理解: 损失函数的选择直接影响模型的优化方向。MAE对异常值不敏感，而MSE则会更严重地惩罚预测错误较大的情况。

(3) 优化模型参数:

步骤: 使用梯度下降法来最小化损失函数，从而找到最佳的参数 $w$ 和 $b$ 。梯度下降的公式为：
- 更新参数 $w$ : $w = w - η * \partial L (w, b) / \partial w$
- 更新参数 $b$ : $b = b - η * \partial L (w, b) / \partial b$
- 其中， $η$ 是学习率，决定了每次更新的步伐大小。
理解: 梯度下降通过逐步调整参数，逐渐减小损失函数的值，从而找到最优参数。学习率的大小需要调节，太大会导致跳过最优点，太小则会使收敛速度过慢。

关注

9
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
Datawhale Al夏令营 -- Task1 学习笔记

(1) :ybwx1yx1wb(2) :Lwb)Lwb1/N∑∣yi−bwxi∣Lwb1/N∑yi−bwxi2Nyixi(3) :wbwww−η∗∂Lwb∂wbbb−η∗∂Lwb∂bη。
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。