机器学习——入门基础（线性模型）

最新推荐文章于 2024-08-02 17:15:32 发布

友培

最新推荐文章于 2024-08-02 17:15:32 发布

阅读量1.7k

点赞数 1

分类专栏：大数据——机器学习文章标签：机器学习人工智能 python 西瓜书南瓜书

本文链接：https://blog.csdn.net/xiaoyoupei/article/details/121707099

版权

大数据——机器学习专栏收录该内容

12 篇文章 4 订阅

订阅专栏

文章目录

西瓜书机器学习第三章

西瓜书机器学习第三章

贴上又一位宝藏up主的传送门二次元的Datawhale的个人空间_哔哩哔哩_bilibili

对于在机器学习线性模型的属性判别的时候，分为多种的情况，由上而下依次添加了多个属性，这里着重讲解最后一个无序的离散特征，是将x4、x5、x6三个值作为标准，比如黄色，那保留x4，x5和x6置为0

线性回归

线性关系

函数模式：f(x)=w1x1+w2x2+w3x3+…+wdxd+b

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-fOgfNCyu-1638536631780)(F:/ZNV/%E7%AC%94%E8%AE%B0%E5%9B%BE%E7%89%87/%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0-%E8%A5%BF%E7%93%9C%E4%B9%A6/image-20211125202104960.png)]

上图举例，数据集D由(x1,y1),(x2,y2)…(xm,ym)组成，其中每个（xi,yi）中的x有由（xi1，xi2…xid）组成，此时有参数w，w由（w1，w2…wd）组成，预测关系为wx1+b=y1’（注意这里面的w和x1是对应的w1 * x11+w2 * x12+wd * x1d；y1‘是预测值），wx2+b=y2’…wxd+b=yd’，我们想要的是预测值ym’和真实值ym差距最小，使用的方法是均方差

所以要求出[（y1-y1’）^{2+（y2-y2’）}2+…+（yd-yd’）^2]min，这个公式观察发现，yd’是由wxd+b所求，xd、yd是已知的，要求的就是w和b

一元线性回归

如果是一元线性回归，上述公式的d=1，w和b为单个的数，如下图所示

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-etAkuAD1-1638536631781)(F:/ZNV/%E7%AC%94%E8%AE%B0%E5%9B%BE%E7%89%87/%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0-%E8%A5%BF%E7%93%9C%E4%B9%A6/image-20211125204154463.png)]

其实可以很形象的看做矩阵的相乘，比如 x * w +b =y，可以理解成是 X(m * d矩阵) * W的转置(d * 1矩阵)+b(m * 1) = Y(m * 1矩阵)，将上述的公式单独拿出对w求导可得

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-7RTuVUTT-1638536631782)(F:/ZNV/%E7%AC%94%E8%AE%B0%E5%9B%BE%E7%89%87/%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0-%E8%A5%BF%E7%93%9C%E4%B9%A6/image-20211126151824018.png)]

对b求导可得

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-OzC09FxA-1638536631782)(F:/ZNV/%E7%AC%94%E8%AE%B0%E5%9B%BE%E7%89%87/%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0-%E8%A5%BF%E7%93%9C%E4%B9%A6/image-20211126152143046.png)]

导数为0求解

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-bCflSU7j-1638536631783)(F:/ZNV/%E7%AC%94%E8%AE%B0%E5%9B%BE%E7%89%87/%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0-%E8%A5%BF%E7%93%9C%E4%B9%A6/image-20211126155009917.png)]

极大似然估计

其实这是有一段解释的话语，用来估计概率分布的参数值，形象理解，其实就是用所看到的样本值估计总体的一个分布值

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-67YkRyer-1638536631783)(F:/ZNV/%E7%AC%94%E8%AE%B0%E5%9B%BE%E7%89%87/%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0-%E8%A5%BF%E7%93%9C%E4%B9%A6/image-20211130182325873.png)]

这里引入正态分布的公式

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-2YWjqeHd-1638536631783)(F:/ZNV/%E7%AC%94%E8%AE%B0%E5%9B%BE%E7%89%87/%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0-%E8%A5%BF%E7%93%9C%E4%B9%A6/2e2eb9389b504fc28f0a9824ebdde71190ef6dbd.png)]

其实引入极大似然估计是为了计算后面的模型，对于线性模型，其实我们清楚，y=wx+b+e，这个e可以理解为误差，那根据常识，误差其实有正负，也有一定范围，默认是服从均值为0的正态分布e ~ N(0,o’^2)，那很显示e就满足了如下的公式，并且用e=y-（wx+b）代替可得第二个公式（就是可以将wx+b看作是μ）

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-NphXBo1d-1638536631784)(F:/ZNV/%E7%AC%94%E8%AE%B0%E5%9B%BE%E7%89%87/%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0-%E8%A5%BF%E7%93%9C%E4%B9%A6/image-20211130192515754.png)]

将上式进行极大似然估计法处理后如下

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-AsmEfUXC-1638536631784)(F:/ZNV/%E7%AC%94%E8%AE%B0%E5%9B%BE%E7%89%87/%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0-%E8%A5%BF%E7%93%9C%E4%B9%A6/image-20211130200536930.png)]

最终要求此公式的最大值，后面有个负号，那不就是求负号连接的最小值嘛？却突然发现，这不就是最小二乘法估计

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-zKYZ2VpI-1638536631785)(F:/ZNV/%E7%AC%94%E8%AE%B0%E5%9B%BE%E7%89%87/%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0-%E8%A5%BF%E7%93%9C%E4%B9%A6/image-20211130201754112.png)]

下面的一系列是为了求出w和b，上面最终的公式是为了求出最小值，那具体点就是凸函数求最值的问题，所以下面采取的方法是：

1、证明上述公式(yi - wxi -b)^2(i从到m累加) 是关于w和b的凸函数

2、用凸函数求最值的思路求w和b

凸集、凸函数

这里的凸函数并不是形状有关的，y=x^2是凸函数一个代表

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-hSdu5FyL-1638536631785)(F:/ZNV/%E7%AC%94%E8%AE%B0%E5%9B%BE%E7%89%87/%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0-%E8%A5%BF%E7%93%9C%E4%B9%A6/image-20211201094400968.png)]

梯度

求梯度其实就是求偏导数，比如求y=w1x1+w2x2+b求梯度，那就是对x1、x2求导分别为w1、w2，所以其梯度/一阶导数就是[w1 w2] (注意这里是列向量（分母布局）)

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-mdgNVF1q-1638536631786)(F:/ZNV/%E7%AC%94%E8%AE%B0%E5%9B%BE%E7%89%87/%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0-%E8%A5%BF%E7%93%9C%E4%B9%A6/image-20211201085636335.png)]

海塞矩阵（Hessian）

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-f6hUNYAP-1638536631786)(F:/ZNV/%E7%AC%94%E8%AE%B0%E5%9B%BE%E7%89%87/%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0-%E8%A5%BF%E7%93%9C%E4%B9%A6/image-20211201092559280.png)]

引入海塞矩阵最终还是为了证明E(w,b)是关于w和b的凸函数，这里我们可以看到是需要证明半正定的

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-zzq6YRFy-1638536631787)(F:/ZNV/%E7%AC%94%E8%AE%B0%E5%9B%BE%E7%89%87/%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0-%E8%A5%BF%E7%93%9C%E4%B9%A6/image-20211201092722963.png)]

下面是四个二阶导推导过程

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-wlscJpG7-1638536631787)(F:/ZNV/%E7%AC%94%E8%AE%B0%E5%9B%BE%E7%89%87/%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0-%E8%A5%BF%E7%93%9C%E4%B9%A6/image-20211201102045284.png)]

下图就是计算出了二阶导数组成的矩阵，最终的判断是下图最终的式子是否为非负，注意这里补充顺序主子式的含义

设

阶矩阵

则A的顺序主子式为：

所以A是正定的，由其构成的实二次型
是正定的。

在这里插入图片描述

推导的过程如下，这里运用了x均值的知识，最终得证是凸函数

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-xBCBVlFm-1638536631790)(F:/ZNV/%E7%AC%94%E8%AE%B0%E5%9B%BE%E7%89%87/%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0-%E8%A5%BF%E7%93%9C%E4%B9%A6/image-20211201102316635.png)]

既然得证凸函数，那势必就有最小值点（想象y=x^2）,也就是该点导数为0，那不就是求E（w，b）的梯度嘛

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-aSyF7QnK-1638536631791)(F:/ZNV/%E7%AC%94%E8%AE%B0%E5%9B%BE%E7%89%87/%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0-%E8%A5%BF%E7%93%9C%E4%B9%A6/image-20211201111632664.png)]

在上述推导4个二级导数的时候，已经求过w、b的导数，直接拿来，下面是求b，化简为y的均值-w*x的均值

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ql0sBz4q-1638536631791)(F:/ZNV/%E7%AC%94%E8%AE%B0%E5%9B%BE%E7%89%87/%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0-%E8%A5%BF%E7%93%9C%E4%B9%A6/image-20211201111902728.png)]

再求出w的值，将b值代入即可，这就是求出了最开始给出的w、d的值

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-TSojuqqT-1638536631791)(F:/ZNV/%E7%AC%94%E8%AE%B0%E5%9B%BE%E7%89%87/%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0-%E8%A5%BF%E7%93%9C%E4%B9%A6/image-20211201112821381.png)]

多元线性回归

默认的布局是分母布局，也就是列向量

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ZTcT9v9r-1638536631792)(F:/ZNV/%E7%AC%94%E8%AE%B0%E5%9B%BE%E7%89%87/%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0-%E8%A5%BF%E7%93%9C%E4%B9%A6/image-20211203203930051.png)]

对于上图中3.10公式求导，其实我们还可以利用一元线性的知识，证明凸函数再用最小值求出w

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-hUSBIzpE-1638536631792)(F:/ZNV/%E7%AC%94%E8%AE%B0%E5%9B%BE%E7%89%87/%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0-%E8%A5%BF%E7%93%9C%E4%B9%A6/image-20211203204141565.png)]

公式求导

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ByOeKQYC-1638536631792)(F:/ZNV/%E7%AC%94%E8%AE%B0%E5%9B%BE%E7%89%87/%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0-%E8%A5%BF%E7%93%9C%E4%B9%A6/image-20211203204337059.png)]

注意上述求出的是一阶导数，海塞矩阵是二阶导数

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-YajFyPH0-1638536631792)(F:/ZNV/%E7%AC%94%E8%AE%B0%E5%9B%BE%E7%89%87/%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0-%E8%A5%BF%E7%93%9C%E4%B9%A6/image-20211203204520124.png)]

证明完凸函数后，一阶导数为0，求出w

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-RbC8kFM5-1638536631793)(F:/ZNV/%E7%AC%94%E8%AE%B0%E5%9B%BE%E7%89%87/%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0-%E8%A5%BF%E7%93%9C%E4%B9%A6/image-20211203204722157.png)]

对数线性回归

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-WNEPP3Tm-1638536631793)(F:/ZNV/%E7%AC%94%E8%AE%B0%E5%9B%BE%E7%89%87/%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0-%E8%A5%BF%E7%93%9C%E4%B9%A6/image-20211126164406827.png)]

广义线性模型

形象理解就是y和x并没有直接线性关系，但是g(y)和x有线性关系，上述的对数线性回归，实则是加了ln，这种得到的模型也就属于广义线性回归

对数几率回归(逻辑回归)

熟知的逻辑回归，字面上是回归，其实是一种分类算法

设想一种情况，y的取值只有几种，这就转换为了分类的问题，y的取值就被分成三个区间

在这里插入图片描述

根据上图公式求解

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-gUWeCD51-1638536631793)(F:/ZNV/%E7%AC%94%E8%AE%B0%E5%9B%BE%E7%89%87/%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0-%E8%A5%BF%E7%93%9C%E4%B9%A6/image-20211203210009580.png)]

线性判别分析

LDA的思想十分的朴素，就是给定训练的样例集，设法将样例投影到一条直线上，使得同类的投影点尽可能的近，非同类的尽可能的远，形象理解：二维坐标好多点，是有类别的，这一块，那一堆，我们作一条直线，所有的点按照垂直线映射在这条直线上（详述不全，后补）

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-e94YZrPT-1638536631794)(F:/ZNV/%E7%AC%94%E8%AE%B0%E5%9B%BE%E7%89%87/%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0-%E8%A5%BF%E7%93%9C%E4%B9%A6/image-20211126185617590.png)]

类别不平衡的问题

处理方法

设想之前提及的逻辑回归，分类问题，当数据正反例可能性相同 y/(1-y) >1,也就是大于0.5，预测为正例，反之则为反例

假设出现训练集样本是总体样本的无偏采样(解释无偏采样，就是总体样本什么比例，采集的就是什么比例)，当正例数量为m+,反例的数量为m-，有 y/(y-1) > m+/m- ,此时为正例，也可以改为 (y/(y-1) ) * m-/m+ = y’/(y’-1)，等同于上面的y/(1-y) >1

假设不知道采样的几率，可以采用如下方法：

1、欠采样：就是删除数据，使得正反比例数目接近，但可能会丢失一些重要的信息

2、过采样：就是增加一些，但不能重复采样，简单重复采样会造成过拟合

3、阈值移动：

友培

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
打赏
0
评论
机器学习——入门基础（线性模型）

文章目录西瓜书机器学习第三章线性回归一元线性回归极大似然估计凸集、凸函数梯度海塞矩阵（Hessian）多元线性回归对数线性回归广义线性模型对数几率回归(逻辑回归)线性判别分析类别不平衡的问题处理方法西瓜书机器学习第三章贴上又一位宝藏up主的传送门二次元的Datawhale的个人空间_哔哩哔哩_bilibili对于在机器学习线性模型的属性判别的时候，分为多种的情况，由上而下依次添加了多个属性，这里着重讲解最后一个无序的离散特征，是将x4、x5、x6三个值作为标准，比如黄色，那保留x4，x5和x6置为0
复制链接

扫一扫