西瓜书知识总结（第三章）

最新推荐文章于 2022-07-13 19:29:14 发布

calm-one

最新推荐文章于 2022-07-13 19:29:14 发布

阅读量1.2k

点赞数 1

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/weixin_44605171/article/details/122533377

版权

机器学习专栏收录该内容

13 篇文章 1 订阅

订阅专栏

线性模型

机器学习三要素：模型、策略、算法。

1.基本形式

什么是线性模型？通过属性的线性组合构成预测函数，该函数就是属于线性模型
$f(\pmb{x}) = w_1x_1+w_2x_2+\ldots+ w_dx_d+b$
向量形式是 $f(x)=\pmb{w}^{\mathrm{T}}\pmb{x}+b$ ，这里的 $\pmb{w}$ 和 $\pmb{b}$ 学习后即可确定模型。几种经典的线性模型有：线性回归、对数几率回归、线性判别分析。

2.线性回归

数据集 $D={\{(\pmb{x}_1,y_1),(\pmb{x}_2, y_2),\ldots,(\pmb{x}_m,y_m)\}}$ ，其中 $\pmb{x}_i=(x_{i1};x_{i2};\ldots;x_{id}), y_i\in{\mathbb{R}}$
一元线性回归即
$f(x_i)=wx_i+b,使得f(x_i)\simeq{y_i}$
模型确定，如何去选择 $w$ 和 $b$ ，这里选择均方误差作为损失函数，均方误差是回归任务中最常用的性能度量，目标即均方误差最小化，即
$(w^*,b^*)=\mathop{\arg\min}\limits_{w,b}\sum_{i=1}^{m}(f(x_i)-y_i)^2$
这里最小化 $E_{(w,b)} =\sum_{i=1}^m{(y_i-wx_i-b)^2}$ 得到一元线性回归的参数 $w$ 和 $b$ ,该求解过程称为线性回归模型的最小二乘“参数估计”。基于均方误差最小化进行模型求解的方法称为“最小二乘法”。
求解方法： $E_{(w,b)}$ 分别对 $w$ 和 $b$ 求导，令导数为0得到最优解的闭式解 $w$ 和 $b$ ，具体见西瓜书第三章一元线性回归部分
若样本是由 $d$ 个属性描述，即需要使得
$f(x)=\pmb{w}^{\mathrm{T}}\pmb{x}_i+b,使得f(\pmb{x}_i)\simeq{y_i}$
称为“多元线性回归”，按西瓜书中将 $b$ 吸入 $\pmb{w}$ 中得到 $\hat{\pmb{w}}$ , 损失函数即
$E_{}=\sum_{i=1}^m(y_i-f(\hat{x_i}))=\sum_{i=1}^{m}(y_i-\hat{\pmb{w}}^{\mathrm{T}}\hat{\pmb{x}_i})^2$
比较重要的一步就是将这里的求和进行向量化表示
$(\pmb{y}-\pmb{X}\hat{\pmb{x}})^\mathrm{T}(\pmb{y}-\pmb{X}\hat{\pmb{w}})$
对于最小化问题的求解
在这里插入图片描述
首先需要证明损失函数 $E$ 是凸函数，然后利用凸函数求最值思路求解，证明是凸函数只需要判断Hessian矩阵正定性，然后对一阶偏导等于0求得 $\hat{\pmb{w}}^*$

注：梯度是函数对自变量各分量的一阶偏导，二阶导数即Hessian矩阵

其次对于广义线性回归模型定义：
$y=g^{-1}(\pmb{w}^{\mathrm{T}}\pmb{x}+b)$
其中 $g(\cdot)$ 称为联系函数

举例： $\ln{y}=\pmb{w}^{\mathrm{T}}\pmb{x}+b$ ，即对数线性回归

2. 对数几率回归

二分类需要一个“单位阶跃函数”，但是其不连续，不符合要求，所以替代函数为对数几率函数(logistic function)，即
$y=\frac{1}{1+e^{-z}}$
也是一种“Sigmoid函数”，将 $z$ 转化为一个接近0或1的 $y$ 值，
对数几率的由来见下图：
在这里插入图片描述
西瓜书中通过“极大似然估计法”估计 $\pmb{w}$ 和 $b$ ，给定数据集，对率回归模型最大化“对数似然”，具体推导见西瓜书

3. 线性判别分析

线性判别分析(Linear Discriminat Analysis，简称LDA)，主要思想：将样例投影到直线上使得同类投影点尽可能近，异类尽可能远
在这里插入图片描述
给定数据集 $D={\{(\pmb{x}_i, y_i)\}}_{i=1}^m, y_i \in{\{0, 1\}}$ , 令 $X_i、\mu_i、\sum_i$ 分别是第 $i\in{\{ 0, 1\}}$ 类示例的集合、均值向量的均值、协方差矩阵，将两类样本投影到直线 $\pmb{w}$ 上，则两类投影分别为 $\pmb{w}^{\mathrm{T}}\pmb{\mu}_0$ 和 $\pmb{w}^{\mathrm{T}}\pmb{\mu}_{1}$ ，这里的投影可以这样理解，向量的内积，代表向量之间的投影

向量和内积与外积详解：https://zhuanlan.zhihu.com/p/348308540

样本都投影到直线上，两类样本的协方差分别是 $\pmb{w}^\mathrm{T}\sum_0{\pmb{w}}$ 和 $\pmb{w}^\mathrm{T}\sum_1{\pmb{w}}$ ，由于直线是一维空间，所以投影与协方差都为实数。易得目标是：
在这里插入图片描述
直观理解就是：投影点类间距离尽可能大，投影点类中的协方差尽可能小，为了方便理解可以直接理解为下式：

得到LDA欲最大化的目标，即 $\pmb{S}_b$ 与 $\pmb{S}_w$ 的“广义瑞利商”。令分母为1，即

通过拉格朗日乘子法进行求解 $\pmb{w}$
LDA可以从贝叶斯决策理论的角度来解释，当两类数据同先验、满足高斯分布且协方差相等时，LDA可达到最优分类。西瓜书中详细讲解了多分类问题，重点关注：
在这里插入图片描述
多分类的LDA将样本投影到 $N - 1$ 维空间， $N - 1$ 通常远小于数据属性数，这里的N是样本的类别， $\pmb{\mathrm{W}}$ 是投影矩阵

4.类别不平衡问题

样本中不同类别样本数目差别很大，大体上由三类解决方法：欠采样(剔除多的)、过采样(补充少的)、阈值移动(基于原始数据集训练，预测时候做一次放缩)

calm-one

关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
西瓜书知识总结（第三章）

线性模型机器学习三要素：模型、策略、算法。1.基本形式什么是线性模型？通过属性的线性组合构成预测函数，该函数就是属于线性模型f(x)=w1x1+w2x2+…+wdxd+bf(\pmb{x}) = w_1x_1+w_2x_2+\ldots+ w_dx_d+bf(xxx)=w1x1+w2x2+…+wdxd+b向量形式是 f(x)=wTx+bf(x)=\pmb{w}^{\mathrm{T}}\pmb{x}+bf(x)=wwwTxxx+b，这里的 w\pmb{w}www 和 b\pmb{b
复制链接

扫一扫

专栏目录