Datawhale Al夏令营 – Task1 学习笔记
1. 机器学习的基本概念
- 概述: 机器学习让机器具备“学习”能力,核心是通过找到合适的函数来完成特定任务。
- 回归任务:
- 定义: 回归任务是机器学习的一种任务类型,目标是找到一个函数,其输出是一个连续的数值(标量)。
- 例子: 预测未来某一时间的PM2.5数值。
- 分类任务:
- 定义: 分类任务让机器选择一个类别,输出是从设定好的选项中选择一个。
- 例子: 垃圾邮件分类。
- 结构化学习:
- 定义: 结构化学习不仅仅输出一个数值或类别,还可以生成有结构的对象,如图像或文章。
2. 回归任务
- 定义: 通过已知数据,找到一个连续输出的函数。
- 关键点: 回归模型通常用于预测未来的数值,如温度、股价等。
3. 分类任务
- 定义: 分类任务输出的是离散的类别,而不是连续的数值。
- 关键点: 电子邮件分类、图像识别都是常见的分类任务。
4. 案例学习:视频点击次数预测
实际应用的具体步骤和理解
(1) 定义模型:
- 步骤: 首先,需要选择一个数学模型来预测视频的观看次数。模型的选择基于输入数据的性质。例如,在本例中,模型的形式可以设定为一个线性模型:
y
=
b
+
w
x
1
y = b + wx_1
y=b+wx1,其中:
- y y y 是预测的观看次数,
- x 1 x_1 x1 是前一天的观看次数,
- w w w 和 b b b 是待定的参数。
- 理解: 这个步骤的关键是选择一个能够捕捉数据关系的模型结构。线性模型是最简单的形式之一,它假设观看次数与前一天的观看次数之间存在线性关系。
(2) 定义损失函数:
- 步骤: 损失函数用于衡量模型预测结果与实际结果之间的差距。损失函数
L
(
w
,
b
)
L(w, b)
L(w,b)可以通过以下方式定义:
- 平均绝对误差(MAE): L ( w , b ) = ( 1 / N ) ∑ ∣ y i − ( b + w x i ) ∣ L(w, b) = (1/N) ∑ |y_i - (b + wx_i)| L(w,b)=(1/N)∑∣yi−(b+wxi)∣
- 均方误差(MSE): L ( w , b ) = ( 1 / N ) ∑ ( y i − ( b + w x i ) ) 2 L(w, b) = (1/N) ∑ (y_i - (b + wx_i))^2 L(w,b)=(1/N)∑(yi−(b+wxi))2
- 其中, N N N 是样本的数量, y i y_i yi 是实际观看次数, x i x_i xi 是对应的前一天的观看次数。
- 理解: 损失函数的选择直接影响模型的优化方向。MAE对异常值不敏感,而MSE则会更严重地惩罚预测错误较大的情况。
(3) 优化模型参数:
- 步骤: 使用梯度下降法来最小化损失函数,从而找到最佳的参数
w
w
w和
b
b
b。梯度下降的公式为:
- 更新参数 w w w: w = w − η ∗ ∂ L ( w , b ) / ∂ w w = w - η * ∂L(w, b)/∂w w=w−η∗∂L(w,b)/∂w
- 更新参数 b b b: b = b − η ∗ ∂ L ( w , b ) / ∂ b b = b - η * ∂L(w, b)/∂b b=b−η∗∂L(w,b)/∂b
- 其中, η η η 是学习率,决定了每次更新的步伐大小。
- 理解: 梯度下降通过逐步调整参数,逐渐减小损失函数的值,从而找到最优参数。学习率的大小需要调节,太大会导致跳过最优点,太小则会使收敛速度过慢。