吃瓜学习笔记 - 线性模型

yq_yq_yq

已于 2023-12-18 22:45:21 修改

阅读量811

点赞数 23

文章标签：学习笔记

于 2023-12-17 20:03:29 首次发布

本文链接：https://blog.csdn.net/xiaoyilisa/article/details/135046936

版权

Highlight:

对离散属性，若属性存在序关系，可通过连续化将其转化为连续值；若属性不存在序关系，假定有k个属性值，则通常转换为k维向量。若将无序属性连续化，则会不恰当地引入序关系，对后续计算e.g.,距离计算造成误导
最小二乘估计是试图找到一条直线，使得所有样本到直线上的欧式距离之和最小（即使得均方误差最小）
极大似然估计的直观思想：使得观测样本出现概率最大的分布
最小二乘估计和极大似然估计会得到相同的参数估计公式
求解参数w和b，本质上是一个多元函数求最值的问题，更具体点是凸函数求最值的问题，故推导思路为：
a.证明 $E_{(w,b) }= \sum_{i=1}^{m}(y_i-wx_i-b)^2$ 是关于w和b的凸函数
b.用凸函数求最值的思路求w和b
-》将 $E_{(w,b) }$ 分别对w和b进行求导，再令两个偏导数为0可得到w和b最优解的闭式解
机器学习三要素：模型、策略、算法
对数几率回归本质是一个分类任务。原函数 $z\in R$ ，构造一种联系函数，这里是构造一种Sigmoid函数，使得 $y = \frac{1}{1+e^{-z}} \in (0,1)$
线性判别分析LDA：从几何的角度，让全体训练样本经过投影后：异类样本的中心尽可能远；同类样本的中心尽可能近

1. 基本形式

给定由d个属性描述的示例 $\mathbf{x} = (x_1;x_2;...;x_d)$ , 其中 $x_i$ 是 $\mathbf{x}$ 在第i个属性上的取值，线性模型试图学得一个通过属性的线性组合来进行预测的函数：

$f(x) = w_1x_1+w_2x_2+...+w_dx_d+b$

用向量形式写成：

$f(x) =\mathbf{w^T}\mathbf{x}+b$

其中 $\mathbf{w } = (w_1;w_2;...;w_d)$ , w 和b 得到后，模型就确定了。

note:

线性模型形式简单，易建模，有很好的可解释性。
很多非线性模型可在线性模型的基础上通过引入层级结构或高纬映射得到

2. 线性回归

给定数据集 $D = \left \{(x_1,y_1),(x_2,y_2),...(x_m,y_m) \right \}$ ，其中 $\mathbf{x_i} = (x_{i1};x_{i2};...x_{id}), y \in R$
对离散属性，若属性存在序关系，可通过连续化将其转化为连续值；若属性不存在序关系，假定有k个属性值，则通常转换为k维向量

note：若将无序属性连续化，则会不恰当地引入序关系，对后续计算e.g.,距离计算造成误导
线性回归VS正交回归
线性回归：就是找到一个直线，使得所有样本到直线的欧式距离之和最小，线性回归是求均方误差square loss最小的直线。（平行于y轴的距离最短的直线）
正交回归：在二维平面上找到一条直线，使得每个点到直线的垂直距离之和最小。也就是说，正交回归优化的是垂直距离。旨在找到一个最佳拟合曲线

红色的线段是正交回归，蓝色的是线性回归
让均方误差最小化来确定w和b，基于让均方误差最小化来进行模型求解的方法称为“最小二乘法”：

note：arg min(w,b) 符合含义是：求使得整个式子达到最小值的w和b
极大似然估计
a. 用途：估计概率分布的参数值

b. 直观想法：使得观测样本出现概率最大的分布（即待求分布），也即使得联合概率（似然函数) $L(\theta )$ 取到最大值的 $\theta^*$ 即为 $\theta$ 的估计值

c. 方法：对于离散型/连续型随机变量X，假设其概率质量函数为 $P(x;\theta)$ (概率密度函数为 $p(x;\theta)$ ）, 其中 $\theta$ 为待估计的参数值（可以有多个）。现有 $x_1,x_2,...x_n$ 是来自X的n个独立同分布的样本，他们的联合概率为： $L(\theta) = \prod_{i=1}^{n}P(x_i; \theta)$
从频率派“极大似然估计”思考线性回归的目标函数：

note: 这里的x是已知量
(中心极限定理：若一个随机变量是很多个独立的随机变量之和，那这个随机变量就符合正态分布)
求解w和b，本质上是一个多元函数求最值的问题，更具体点是凸函数求最值的问题
推导思路：
a. 证明 $E_{(w,b) }= \sum_{i=1}^{m}(y_i-wx_i-b)^2$ 是关于w和b的凸函数

定理：设 $D\subset R^n$ 是非空开凸集， $f:D\subset R^n \rightarrow R$ 且 $f(x)$ 在D上二阶连续可微，如果 $f(x)$ 的海塞矩阵在D上是半正定的，则 $f(x)$ 是D上的凸函数。
因此，只需要证明 $E_{(w,b) }= \sum_{i=1}^{m}(y_i-wx_i-b)^2$ 的海塞矩阵是半正定的

b. 用凸函数求最值的思路求w和b
若 $f:D\subset R^n \rightarrow R$ 是凸函数，且 $f(x)$ 一阶连续可微，则 $\mathbf{x^*}$ 是全局解的充分必要条件是 $\bigtriangledown f(\mathbf{x^*}) = 0$ , 所以 $\bigtriangledown f(\mathbf{E_{w,b}}) = 0$ 的点即为最小点 , 即

具体推导见（第3章-一元线性回归_哔哩哔哩_bilibili，0:34:57 - 0:59:44）

3. 机器学习三要素

模型：根据具体问题，确定假设空间（e.g., $f(x) = wx+b$ )
策略：根据评价标准，确定选取最优模型的策略，通常会产出一个损失函数 (e.g.,基于均方误差最小；极大似然估计）
算法：求解损失函数，确定最优模型

4. 多元线性回归multivariate linear regression: 样本由d个属性描述

$f(\mathbf{x_i}) = \mathbf{w^T}\mathbf{x_i}+b$

将w和b组合为 $\hat{w}$ ，导出 $E_{\hat{w}}$ ：

$f(\mathbf{x_i)}=(w_1 w_2 ...w_d) \begin{pmatrix} x_{i1}\\ x_{i2}\\ ...\\ x_{id}\\ \end{pmatrix} +b \\ f(\mathbf{x_i)}=w_1x_{i1} + w_2x_{i2} ...+w_dx_{id} +b \\ \\ f(\mathbf{x_i)}=w_1x_{i1} + w_2x_{i2} ...+w_dx_{id} + w_{d+1}*1 \\ \\ f(\mathbf{x_i)}=(w_1 w_2 ...w_{d+1}) \begin{pmatrix} x_{i1}\\ x_{i2}\\ ...\\ x_{id}\\ 1\\ \end{pmatrix} \\ f(\mathbf{\hat{x}_i)}=\mathbf{\hat{w}^T}\mathbf{\hat{x}_i}$

由最小二乘法可得：

向量化 $E_{\hat{w}}$ ：

求解 $\mathbf{{\hat{w}}}^*$

具体推导见（第3章-多元线性回归_哔哩哔哩_bilibili，10:00 - 21:00）

（注：如果假定 $\mathbf{X}^T\mathbf{X}$ 为正定矩阵的时候，可以得到 $E_{\hat{w}}$ 是半正定）

对 $\hat{w}$ 求导可以得到：

令上式为0，得到

4. 对数几率回归（逻辑回归）

本质是一个分类任务，在线性模型的基础上套一个映射函数来实现分类功能
让一个 $f(x) \in R$ ，构造一个g(·)的联系函数，使得这个 $g(f(x))\in [0,1]$ 。构造一种Sigmoid函数 $y = \frac{1}{1+e^{-z}} \in (0,1)$ ，这里的 $z\in R$
策略：极大似然估计；信息论
算法：梯度下降；牛顿法

信息论*
（信息熵，相对熵，交叉熵具体定义见附录)

5.线性判别分析 LDA

算法原理：从几何的角度，让全体训练样本经过投影后：异类样本的中心尽可能远；同类样本的中心尽可能近

注：西瓜书这里的小写的 $x_i$ 和大写的 $X_i$ 表示是不同的意思， $x_i$ 代表特征向量， $i = 1...m, x_i\subset R^m$ ，假定现在有四个样本： $(x_1, y_1), (x_2, y_2) \leftarrow assume\ y_1,y_2=1 \\ (x_3, y_3), (x_4, y_4) \leftarrow assume\ y_3,y_4=0$ , $X_0$ 代表负样本的集合，即 $[(x_3, y_3), (x_4, y_4)]$ , $X_1$ 代表正样本的集合，即 $[(x_1, y_1), (x_2, y_2)]$ 。μ代表特征向量的均值， $\mu_0 = \frac{x_3+x_4}{2},$ $\mu_1 = \frac{x_1+x_2}{2}$ 。Σ代表协方差，Σ0代表负样本的协方差，Σ1代表负样本的协方差， $\Sigma_0 = \frac{1}{m_0}\sum_{x\in X_0 }(x-\mu_0)(x-\mu_0)^T$ , 这里的m0代表x在 $X_0$ 的个数，在这个例子里 m0=2，同理 $\Sigma_1 = \frac{1}{m_1}\sum_{x\in X_1 }(x-\mu_1)(x-\mu_1)^T$

附录：

凸集VS凸函数
梯度：一元函数的一阶导叫导数，多元函数的一阶导叫梯度。（求出各个分量Xi的偏导数，然后组成向量）
海塞矩阵：多元函数的二阶导数
正定 VS 半正定矩阵
定义1：给定一个大小为n*n的实对称矩阵A，若对于任意长度为n的非零向量x，有 $\textbf{x}^TA\textbf{x}>0$ 恒成立，则矩阵A是一个正定矩阵。
定义2：给定一个大小为n*n的实对称矩阵A，若对于任意长度为n的非零向量x，有 $\textbf{x}^TA\textbf{x}\geqslant 0$ 恒成立，则矩阵A是一个半正定矩阵
信息论
拉格朗日乘子法

学习资料：

西瓜书：周志华老师的《机器学习》

南瓜书：《机器学习公式详解》第2版

吃瓜视频：【吃瓜教程】《机器学习公式详解》（南瓜书）与西瓜书公式推导

浅谈「正定矩阵」和「半正定矩阵」

yq_yq_yq

关注

23
点赞
踩
14

收藏

觉得还不错? 一键收藏
0
评论
吃瓜学习笔记 - 线性模型

梯度：一元函数的一阶导叫导数，多元函数的一阶导叫梯度。（求出各个分量Xi的偏导数，然后组成向量）(中心极限定理：若一个随机变量是很多个独立的随机变量之和，那这个随机变量就符合正态分布)，本质上是一个多元函数求最值的问题，更具体点是凸函数求最值的问题。b. 用凸函数求最值的思路求w和b。的海塞矩阵在D上是半正定的，则。西瓜书：周志华老师的《机器学习》note: 这里的x是已知量。海塞矩阵：多元函数的二阶导数。给定由d个属性描述的示例。是全局解的充分必要条件是。是关于w和b的凸函数。的海塞矩阵是半正定的。
复制链接

扫一扫