李宏毅机器学习第2周_Regression&Classification分类与回归问题

最新推荐文章于 2024-04-05 19:52:27 发布

沽漓酒江

最新推荐文章于 2024-04-05 19:52:27 发布

阅读量732

点赞数 1

文章标签：机器学习分类回归

本文链接：https://blog.csdn.net/weixin_44162879/article/details/132110352

版权

摘要

本周的学习主要分为三个模块。

回归分析。在统计建模中，回归分析是一组用于估计因变量与一个或多个自变量之间关系的统计过程。这周的课程主要是关于线性回归。
分类问题，分类是与分类相关的过程，是识别、区分和理解思想和对象的过程。分类是将相关事实分组。
除此之外，还对本周课程相关的数学知识进行了学习。例如，最大似然估计、高斯分布、协方差矩阵

Abstract

This week’s study is mainly divided into three parts.

regression analysis. In statistical modeling, regression analysis is a set of statistical processes for estimating the relationships between a dependent variable and one or more independent variables. This week’s lecture is mainly about linear regression.
Classification. Classification is the grouping of related facts into classes.
In addition, the mathematics knowledge related to this week’s course was also learned. For example, maximum likelihood estimation, Gaussian distribution, covariance matrix

预测神奇宝可梦pokemon

Regression回归问题

根据已知数据集中变量相关性，建立一条最佳拟合曲线，该曲线上的点对应的观测数据的距离总和最小，此曲线即回归函数，用于预测数据的变量输出

回归方法应用举例
在这里插入图片描述

eg：预测宝可梦进化后cp值

x_s：种族
x_hp：血量
x_w：重量
x_h：高度
x_cp：进化前cp值
y：进化后cp值
将各参数输入function，输出预测的y

预测步骤

仅考虑进化前cp

建立model
- 建立function: y = b + w*x_cp
  - w,b为参数，可取任意值
- Linear model: y = b + ∑w_ix_i
  - x_i: feature
  - w: weight
  - b: bias
Goodness of Function
评估函数，输入数据后，将预测值与真实值对比，根据误差判断函数

a set of function，即model
- y = b + w*x_cp
- input: 进化前cp xⁱ
- output( 值 ): 进化后cp y’ⁱ
Training Data
- 真实数据如图
定义Loss function
- input: a function
- output: how bad it is
- L(f) = L(w, b) = ∑¹⁰_n=1( y’ⁿ - (b + w* xⁿ_cp))²
  - 用MSE计算误差，然后输出误差和
- 根据该方法获得的结果如图，越接近蓝色系误差越小，越接近红色系，误差越大
1. Best Function
  取“最好”的函数
- f^* = arg min_fL(f)
- w^*, b^* = arg min_w,bL(w, b) = arg min_w,b∑¹⁰_n=1 ( y’ⁿ - ( b + w*xⁿ_cp))²

在这里插入图片描述

通过Gradient Descent的方式获取函数

仅考虑单一参数的损失函数L(w)
- 随机选取初始值w⁰
- 计算在w=w⁰的位置求w对L的微分dL/dw|w=w⁰
- 根据微分调整w，获取w¹
  - 若微分为正，则增加w；若微分为负，则减小w
  - w¹ = w⁰-η*dL/dw|w=w⁰，其中η称学习率learning rate
- 迭代的计算w，直至local optimal，而非global optimal
  - 对于local regression，没有local minimum
两个参数的情况
- 随机选取w⁰, b⁰
- 计算在w = w⁰, b = b⁰位置的w对L以及b对L的偏微分
- 根据偏微分、η获取w¹, b¹
- 迭代的计算w以及b
- 将上述步骤可视化如下
- 根据上述步骤进行更新，各参数会沿着损失函数等值线的法线方向调整
- 在线性回归中，由于损失函数是凸的且没有local optimal，故随机取参数迭代后均可到达global optimal
Formulation

值得注意的是在新数据（testing data）上的误差，通常会大于在training data。为了获取更好的结果，可以采用其他model

在这里插入图片描述

Overfitting过拟合
- 可以引入(x_cp)², (x_cp)³……，之后会得到在training data上表现更好的model
- 但当function更为complex，在testing上的loss反而更大，这与初衷相悖，此时模型出现了过拟合

引入更多参数

more factors
- 当输入更多的data之后，仅以进化前的cp值作为feature不能很好的进行预测；若希望获得更好的model，可以引入更多的参数

back to step 1: Redesign the model
- 例如引入种族，根据种族调整function
- 为了得到linear model，引入一组δ。
  - 若为种族Pidgey，则将该种族对应参数δ(x_s=Pidgey)置1，其余δ置0，
- linear model如下
- 进化后cp也可能与其他因素（例如hp、h、w）相关，但当引入更多参数后出现了过拟合，在testing data上表现得更差，可以通过正则化平滑曲线
back to step 2: Regularization
- 可以在损失函数中加上λ*Σ(w_i)²
  - 因为调整bias不影响曲线的平滑程度，因此该项没有bias
- 通过该方式可以获取更小的w_i，而更小的w_i对y的影响更小，从而有更为平滑的曲线
- 相应的，若在训练中输入了一些杂讯，一个更平滑的function受到的影响更小
- 在训练中，可以通过增大λ来获取更为平滑的曲线，同样的可以获得在training data上更小的误差
- 但当λ过大，testing data上的误差会变得更大，因此曲线并不是越平滑越好
- 此时可以通过计算不同λ的误差、调整λ获取在训练集上表现更好的曲线，此时曲线的平滑程度更为契合

Conclusion & Following Lectures 结论及后续课程

梯度下降：
- 后续课程：理论与技巧
过拟合与正则化
- 后续课程：更多理论
最终得到在训练集上的平均误差为11.1
- 在其他新数据上表现如何
- 后续课程：validation验证

神奇宝贝分类

Classification: Probabilistic Generative model分类：概率生成模型

Classification 分类问题

分类是指输入一些相关信息之后，模型在诸多选择中选出最符合预期的结果

分类问题的应用

在这里插入图片描述

eg: 根据宝可梦输出宝可梦的属性

根据以下信息预测宝可梦的属性
在这里插入图片描述

如何进行分类

训练分类数据

将分类看作回归问题
以二元分类为例
训练：
- class1意味着目标是1
- class2意味着目标是-1
测试
- 接近1->class1
- 接近-1->class2
若根据上述方式进行训练，则可能出现离群点，造成杂讯
- 为了解决该问题需要惩罚“太正确”的例子
ideal alternatives理想中的修改方案
- function(model)：输入x，当g(x)>0时，输出类别1，其他情况输出类别2
- loss function损失函数：L(f) = ∑_nδ(f(xⁿ)≠y’_n)；数值为f在训练集上得出错误结果的次数
- 寻找最佳函数：可以使用在后续课程中的perceptron( 感知器 ), SVM( 支持向量机 )

贝叶斯分布

若box1中有4蓝1绿，box2中有2蓝3绿，则 $P(Blue|B_{1}) = \frac{4}{5}$ ， $P(Green|B_{1}) = \frac{1}{5}$ ， $P(Blue|B_{2}) = \frac{2}{5}$ ， $P(Green|B_{2}) = \frac{3}{5}$ 。
又 $P(B_{1}) = \frac{2}{3}$ ， $P(B_{2}) = \frac{1}{3}$
则有 $P(B_{1}|Blue) = \frac{P(Blue|B_{1})P(B_(1))}{P(Blue|B_{1})P(B_{1})+P(Blue|B_{2})P(B_{2})}$
对于Classification，可以将box看作class，则根据 $P(C_{1})$ 、 $P(C_{2})$ 、 $P(x|C_{1})$ 、 $P(x|C_{2})$ 计算 $P(C_{1}|x)$ ，因此需要上述从训练集中得出上述四项数据用以预测概率
因此可以建立Generative Model生成模型 $P(x) = P(x|C_{1})P(C_{1})+P(x|C_{2})P(C_{2})$
用 $P(C_{1})$ 表达水系的概率，用 $P(C_{2})$ 表达一般系的概率
若训练集中79水61一般，则 $P(C_{1})=0.56$ ， $P(C_{2})=0.44$

Probability from Class类概率

此时为了计算 $P(x|C_{1})$ 、 $P(x|C_{2})$ ，可以假定图中的点均来自一个高斯分布Gaussian distribution
可以将每个宝可梦表示为由其attribute组成的向量，作为feature
例如考虑防御及特防两个特征组成的向量，将训练集中的数据标记在下图中
此时，有水属性的new data，如何通过feature判断其属性是否为水系

Gaussian Distribution高斯分布

$f_{μ,∑} = \frac{1}{(2Π)^{D/2}}\frac{1}{|∑|}^{1/2}exp\{-\frac{1}{2}(x-μ)^{T}∑^{-1}(x-μ)\}$
输入：向量x
输出：抽取x的概率
function的形状取决于平均值μ以及协方差矩阵∑
- 不同μ，最高点不同；不同∑，集散程度不同

Maximum Likelihood最大似然估计

基于上述的高斯分布，可以确定feature被分布选中的likelihood
$∑)=\prod_{i=1}^{79}f_{μ,∑}(x^{i})$
注：此处L(μ, ∑)并非loss function
根据上述L(μ, ∑)可以确定一组μ, ∑使得L(μ, ∑)最大
- $μ^{*},∑^{*} = arg\max_{μ,∑}L(μ,∑)$
- $μ^{*}=\frac{1}{79}$
- $\Sigma^{*}=\sum^{79}_{n=1}(x^{n}-\mu^{*})(x^{n}-\mu^{*})$
根据上式计算如下
根据以上结果可以得出水系以及一般系的高斯分布，而由高斯分布可以计算出 $P(x|C_{1})$ 、 $P(x|C_{2})$ ，最后可得 $P(C_{1}|x)$ 。若 $P(C_{1}|x)$ ，则称x属于水系
由上图得出的模型在预测过程中准确率仅为47%，且引入更多维的feature准确率仍为54%
因此需要对该模型进行优化