Datawhale Al夏令营 -- Task1 学习笔记

Datawhale Al夏令营 – Task1 学习笔记


1. 机器学习的基本概念

  • 概述: 机器学习让机器具备“学习”能力,核心是通过找到合适的函数来完成特定任务。
  • 回归任务:
    • 定义: 回归任务是机器学习的一种任务类型,目标是找到一个函数,其输出是一个连续的数值(标量)。
    • 例子: 预测未来某一时间的PM2.5数值。
  • 分类任务:
    • 定义: 分类任务让机器选择一个类别,输出是从设定好的选项中选择一个。
    • 例子: 垃圾邮件分类。
  • 结构化学习:
    • 定义: 结构化学习不仅仅输出一个数值或类别,还可以生成有结构的对象,如图像或文章。

2. 回归任务

  • 定义: 通过已知数据,找到一个连续输出的函数。
  • 关键点: 回归模型通常用于预测未来的数值,如温度、股价等。

3. 分类任务

  • 定义: 分类任务输出的是离散的类别,而不是连续的数值。
  • 关键点: 电子邮件分类、图像识别都是常见的分类任务。

4. 案例学习:视频点击次数预测

实际应用的具体步骤和理解

(1) 定义模型:

  • 步骤: 首先,需要选择一个数学模型来预测视频的观看次数。模型的选择基于输入数据的性质。例如,在本例中,模型的形式可以设定为一个线性模型: y = b + w x 1 y = b + wx_1 y=b+wx1,其中:
    • y y y 是预测的观看次数,
    • x 1 x_1 x1 是前一天的观看次数,
    • w w w b b b 是待定的参数。
  • 理解: 这个步骤的关键是选择一个能够捕捉数据关系的模型结构。线性模型是最简单的形式之一,它假设观看次数与前一天的观看次数之间存在线性关系。

(2) 定义损失函数:

  • 步骤: 损失函数用于衡量模型预测结果与实际结果之间的差距。损失函数 L ( w , b ) L(w, b) L(w,b)可以通过以下方式定义:
    • 平均绝对误差(MAE): L ( w , b ) = ( 1 / N ) ∑ ∣ y i − ( b + w x i ) ∣ L(w, b) = (1/N) ∑ |y_i - (b + wx_i)| L(w,b)=(1/N)yi(b+wxi)
    • 均方误差(MSE): L ( w , b ) = ( 1 / N ) ∑ ( y i − ( b + w x i ) ) 2 L(w, b) = (1/N) ∑ (y_i - (b + wx_i))^2 L(w,b)=(1/N)(yi(b+wxi))2
    • 其中, N N N 是样本的数量, y i y_i yi 是实际观看次数, x i x_i xi 是对应的前一天的观看次数。
  • 理解: 损失函数的选择直接影响模型的优化方向。MAE对异常值不敏感,而MSE则会更严重地惩罚预测错误较大的情况。

(3) 优化模型参数:

  • 步骤: 使用梯度下降法来最小化损失函数,从而找到最佳的参数 w w w b b b。梯度下降的公式为:
    • 更新参数 w w w: w = w − η ∗ ∂ L ( w , b ) / ∂ w w = w - η * ∂L(w, b)/∂w w=wηL(w,b)/w
    • 更新参数 b b b: b = b − η ∗ ∂ L ( w , b ) / ∂ b b = b - η * ∂L(w, b)/∂b b=bηL(w,b)/b
    • 其中, η η η 是学习率,决定了每次更新的步伐大小。
  • 理解: 梯度下降通过逐步调整参数,逐渐减小损失函数的值,从而找到最优参数。学习率的大小需要调节,太大会导致跳过最优点,太小则会使收敛速度过慢。
  • 9
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值