机器学习——线性模型

最新推荐文章于 2022-06-08 16:37:47 发布

毕业就要失业了

最新推荐文章于 2022-06-08 16:37:47 发布

阅读量389

点赞数

分类专栏：机器学习文章标签：机器学习回归分类

本文链接：https://blog.csdn.net/weixin_47779143/article/details/121638891

版权

机器学习专栏收录该内容

8 篇文章 1 订阅

订阅专栏

1. 基本形式

给定有 $d$ 个属性的示例 $x=(x_1;x_2;...;x_d)$ ，其中 $x_i$ 是 $x$ 的第 $i$ 个属性上的取值。线性模型试图学得一个通过属性的线性组合来进行预测的函数，即： $f(x)=w_1x_1+w_2x_2+...+w_dx_d+b$ $f(x)=w^Tx+b$

2. 线性回归

给定数据集 $D=\{(x_1,y_1),(x_2,y_2),...,(x_m,y_m)\}$ ，其中 $x_i=(x_{i1};x_{i2};...;x_{id}),y_i∈\mathbb{R}$ 。线性回归试图学得一个线性模型以预测实值输出标记。

2.1 一元线性回归

对于一元线性回归，考虑 $x_i=(x_{i1};x_{i2};...;x_{id})$ ，则： $y_i≈w_0+w_1x_i=\hat{w}^T\hat{x_i}$ 其中 $\hat{w}=(w_0;w_1),\hat{x_i}=(1;x_i)$ 。

优化目标： $\argmin\limits_{f}ℒ(f)=\frac{1}{n}\sum\limits_i(y_i-f(x_i))^2$ 将 $f(x)=\hat{w}^T\hat{x}$ 代入： $\argmin\limits_{\hat{w}}ℒ(\hat{w})=\frac{1}{n}\sum\limits_i(y_i-\hat{w}^T\hat{x_i})^2$ 求解结果： $w_1^*=\frac{\overline{xy}-\overline{x}·\overline{y}}{\overline{x^2}-(\overline{x})^2}, \quad w_0^*=\overline{y}-w_1^*\overline{x}$ 其中， $\overline{x}=\frac{1}{n}\sum\limits_{i=1}^nx_i,\overline{y}=\frac{1}{n}\sum\limits_{i=1}^ny_i,\overline{xy}=\frac{1}{n}\sum\limits_{i=1}^nx_iy_i,\overline{x^2}=\frac{1}{n}\sum\limits_{i=1}^nx_i^2$ 。

线性回归算法学习了一条直线（也就是两个参数 $w_0$ 和 $w_1$ ）；
线性回归的效果取决于数据本身的分布。

2.2 多元线性回归

对于多元线性回归，考虑 $x_i=(x_{i1};x_{i2};...;x_{id})$ ，则： $y_i≈w_0+(w_1,w_2,...,w_d)\begin{pmatrix} x_{i1}\\ x_{i2}\\ \vdots\\ x_{id}\\ \end{pmatrix}=\hat{w}^T\hat{x_i}$ 其中 $\hat{w}=(w_0;w_1;...;w_d),\hat{x_i}=(1;x_{i1};...;x_{id})$ 。

优化目标： $\argmin\limits_{f}ℒ(f)=\frac{1}{n}\sum\limits_i(y_i-f(x_i))^2$ 将 $f(x)=\hat{w}^T\hat{x}$ 代入： $\argmin\limits_{\hat{w}}ℒ(\hat{w})=\frac{1}{n}\sum\limits_i(y_i-\hat{w}^T\hat{x_i})^2\\=||y-X\hat{w}||_2^2=(y-X\hat{w})^T(y-X\hat{w})$ 其中， $y=(y_1,y_2,...,y_n)^T,X=\begin{pmatrix} \hat{x_{1}}^T\\ \hat{x_{2}}^T\\ \vdots\\ \hat{x_{n}}^T\\ \end{pmatrix}=\begin{pmatrix} 1&x_{11}&x_{12}&\cdots&x_{1d}\\ 1&x_{21}&x_{22}&\cdots&x_{2d}\\ \vdots&\vdots&\vdots&\ddots&\vdots\\ 1&x_{n1}&x_{n2}&\cdots&x_{nd}\\ \end{pmatrix}∈\mathbb{R}^{n×(d+1)}$ 。
求解结果： $\hat{w^*}=(X^TX)^{-1}X^Ty$

若 $X^TX$ 满秩或正定，则 $\hat{w^*}=(X^TX)^{-1}X^Ty$ ；
若 $X^TX$ 不满秩，则可解出多个 $\hat{w}$ ，此时需求助于归纳偏好，或引入正则化。

正定矩阵：矩阵 $A_{n×n}$ 是正定矩阵，当且仅当对于任意非零向量 $x_{n×1}$ ， $x^TAx>0$ 恒成立。

2.3 最小二乘法和极大似然法求解线性回归

假设变量 $y_i$ 和变量 $x_i$ 满足： $y_i=\hat{w}^T\hat{x_i}+\epsilon_i$ 其中误差 $\epsilon_i∽N(0,\sigma^2)$ ，即 $p(\epsilon_i)=\frac{1}{\sqrt{2π}\sigma}exp(-\frac{(\epsilon_i)^2}{2\sigma^2})$ 。
概率： $p(y_i|\hat{x_i};\hat{w})=\frac{1}{\sqrt{2π}\sigma}exp(-\frac{(y_i-\hat{w}^T\hat{x_i})^2}{2\sigma^2})$ 可以看作是输出变量 $y_i$ 关于输入变量 $\hat{x_i}$ 和固定参数 $\hat{w}$ 的函数，也可以看作是已知变量 $y_i$ 和变量 $\hat{x_i}$ 的前提下关于参数 $\hat{w}$ 的函数，即似然函数。
在这里插入图片描述

2.3.1 极大似然法

假设所有数据独立同分布，则： $ℒ(\hat{w})=\prod\limits_{i=1}^mℒ_i(\hat{w})=\prod\limits_{i=1}^mp(y_i|\hat{x_i};\hat{w})$ 极大似然法优化目标： $\argmax\limits_{\hat{w}}ℒ(\hat{w})=\argmax\limits_{\hat{w}}\prod\limits_{i=1}^mp(y_i|\hat{x_i};\hat{w})$ 考虑对数似然函数： $\ell(\hat{w})=\lnℒ(\hat{w})=\ln\prod\limits_{i=1}^mp(y_i|\hat{x_i};\hat{w})\\=\sum\limits_{i=1}^n\ln p(y_i|\hat{x_i};\hat{w})=n·\ln\frac{1}{\sqrt{2π}\sigma}-\frac{1}{2\sigma^2}\sum\limits_{i=1}^n(y_i-\hat{w}^T\hat{x_i})^2$ 因此： $\argmax\limits_{\hat{w}}\prod\limits_{i=1}^mp(y_i|\hat{x_i};\hat{w})\iff\argmin\limits_{\hat{w}}\sum\limits_{i=1}^n(y_i-\hat{w}^T\hat{x_i})^2$

为何使用对数似然函数？

对数函数单调递增，不会改变原有似然函数的极大值点；
对常见的概率分布取对数后再求导来求最大值可以简化运算。

2.3.2 最小二乘法

最小二乘法： $\argmin\limits_f\frac{1}{n}\sum_i(y_i-f(x_i))^2\iff\argmin\limits_{\hat{w}}\frac{1}{n}\sum\limits_{i=1}^n(y_i-\hat{w}^T\hat{x_i})^2$ 其中 $f(x)=w^Tx+b=\hat{w}^T\hat{x}$ 。
极大似然法： $\argmax\limits_p\ln\prod\limits_{i=1}^np(y_i|x_i)\iff\argmin\limits_{\hat{w}}\sum\limits_{i=1}^n(y_i-\hat{w}^T\hat{x_i})^2$ 其中 $p(y_i|x_i)=\frac{1}{\sqrt{2π}\sigma}\exp(-\frac{(y_i-\hat{w}^Tx)^2}{2\sigma^2})$ 。

当 $f$ 是线性函数， $p$ 服从高斯分布时，两个模型等价！！！

2.4 广义线性模型

线性回归模型： $y=w^Tx+b$ 考虑单调可微函数 $g (\cdot)$ ，令： $g(y)=w^Tx+b$ $y=g^{-1}(w^Tx+b)$ 得到的模型称为广义线性模型，其中 $g$ 称为联系函数。

例如， $g(·)=\ln(·)$ 时就是对数线性回归。

3. 逻辑回归（对数几率回归）

逻辑回归用于分类任务，规定直线上方的点为正样本，直线下方的点为负样本。
基本分类思想：当 $x$ 为正类样本， $f (x) > 0$ ，当 $x$ 为负类样本， $f (x) < 0$ 。

问题：线性分类器 $f (x)$ 的输出是连续实值，即 $[- \infty, + \infty]$ ，而样本标签为离散值，如何对应？
答：通过联系函数解决（广义线性模型）。

3.1 单位阶跃函数or对数几率函数？

在这里插入图片描述
单位阶跃函数（unit-step function）： $\begin{cases} 0 & z<0 \\ 0.5 & z=0 \\ 1 & z>0 \end{cases}$
特点：不连续，影响后期求解。
对数几率函数（logistic function）： $g(z)=\frac{1}{1+e^{-z}},z∈\mathbb{R}$ 特点：单调可微，任意阶可导，且一阶导数为 $g^{'} = g (1 - g)$ 。容易得到 $g (+ \infty) = 1, g (0) = 0.5, g (- \infty) = 0$ ，因此它将 $z$ 值转化为一个接近0或1的值，并且在 $z = 0$ 附近变化很陡。

3.2 逻辑回归模型

逻辑回归用于分类问题，常用均方误差作为分类损失函数，定义如下： $ℒ(\hat{w})=\frac{1}{n}\sum\limits_{i=1}^n||y_i-g(f(x))||_2^2=\frac{1}{n}\sum\limits_{i=1}^n||y_i-\frac{1}{1+e^{-(\hat{w}^T\hat{x_i})}}||_2^2$ 因此逻辑回归模型定义为： $\min\limits_wℒ(\hat{w})=\min\limits_w\frac{1}{n}\sum\limits_{i=1}^n||y_i-\frac{1}{1+e^{-(\hat{w}^T\hat{x_i})}}||_2^2$

有问题吗？有问题！

该模型是非凸问题，存在多个局部最优解，求解全局最优十分困难，甚至没有全局最优；
类别标签本身就是符号，在数值上没有任何意义。

观察线性分类器 $f (x)$ 与对数几率函数 $g (f (x))$ ：

$f (x)$ 的值有一定的物理意义；
$f (x)$ 与 $g (f (x))$ 单调性一致；
$g (f (x)) \in [0, 1]$ ，与概率取值范围一致。

因此，大胆假设 $g (f (x))$ 为样本 $x$ 属于正类的概率，让 $g (f (x))$ 隐性关联标签 $p (y = 1 ∣ x) = g (f (x))$ 。至此，我们又可以考虑使用极大似然法。

3.2.1 极大似然法构建模型

已知 $g(f(x))=\frac{1}{1+e^{-f(x)}}$ ，因此对于正类样本，应当最大化概率： $p_1(\hat{x_i};\hat{w})=p(y_i=1|\hat{x_i})=g(f(x_i))=\frac{1}{1+e^{-\hat{w}^T\hat{x_i}}}=\frac{e^{\hat{w}^T\hat{x_i}}}{1+e^{\hat{w}^T\hat{x_i}}}$ 对于负类样本，应当最大化概率： $p_0(\hat{x_i};\hat{w})=p(y_i=0|\hat{x_i})=1-g(f(x_i))=\frac{e^{-\hat{w}^T\hat{x_i}}}{1+e^{-\hat{w}^T\hat{x_i}}}=\frac{1}{1+e^{\hat{w}^T\hat{x_i}}}$ 也就是最大化下式： $p(y_i|\hat{x_i};\hat{w})=[p_1(\hat{x_i};\hat{w})]^{y_i}[p_0(\hat{x_i};\hat{w})]^{(1-y_i)}$ 独立同分布假设下，训练样本关于标签的联合概率函数： $p(\{y_i\}_{i=1}^n|\{x_i\}_{i=1}^n;\hat{w})=\prod\limits_{i=1}^np(y_i|\hat{x_i};\hat{w})$ 考虑联合概率函数的对数似然函数作为目标函数： $\ell(\hat{w})=\ln p(\{y_i\}_{i=1}^n|\{x_i\}_{i=1}^n;\hat{w})=\sum\limits_{i=1}^n(y_i\hat{w}^T\hat{x_i}-\ln(1+e^{\hat{w}^T\hat{x_i}}))$ 逻辑回归模型： $\argmin\limits_{\hat{w}}\ell(\hat{w})=\sum\limits_{i=1}^n(\ln(1+e^{\hat{w}^T\hat{x_i}})-y_i\hat{w}^T\hat{x_i})$

这是一个无约束优化问题。

3.2.2 牛顿法和梯度下降法求解模型

有两种方法求解该优化问题：

牛顿法
梯度下降法

牛顿法

牛顿法，又称牛顿迭代法，对于难以求精确根的方程，可以采用该方法进行求根。
在这里插入图片描述
用牛顿迭代法求解非线性方程，是把非线性方程 $f (x) = 0$ 线性化的一种近似方法。把 $f (x)$ 在 $x_0$ 的某邻域内展开为泰勒级数，取其线性部分（前两项），并令其等于0，即： $f(x_0)=f'(x_0)(x-x_0)=0$ 以此作为非线性方程 $f (x) = 0$ 的近似方程。当 $f'(x_0)≠0$ 时，得到： $x_1=x_0-\frac{f(x_0)}{f'(x_0)}$ 因此，牛顿迭代法的迭代关系式为： $x_{n+1}=x_n-\frac{f(x_n)}{f'(x_n)}$ 逻辑回归模型为: $\hat{w}^*=\argmin\limits_{\hat{w}}\ell(\hat{w})$ 因此非线性函数为 $f(\hat{w})=\ell'(\hat{w})=0$ ，因此迭代关系式为： $\hat{w}_{n+1}=\hat{w}_n-\frac{f(\hat{w}_n)}{f'(\hat{w}_n)}=\hat{w}_n-\frac{\ell'(\hat{w}_n)}{\ell''(\hat{w}_n)}$

梯度下降法

迭代关系式为： $\hat{w}_{n+1}=\hat{w}_n-\gamma_n\ell'(\hat{w}_n)$

小结

注意：图中 $L^{'}$ 和 $L^{''}$ 实际表示 $\ell'$ 和 $\ell''$ 。

在这里插入图片描述

毕业就要失业了

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
机器学习——线性模型

1. 基本形式给定有ddd个属性的示例x=(x1;x2;...;xd)x=(x_1;x_2;...;x_d)x=(x1;x2;...;xd)，其中xix_ixi是xxx的第iii个属性上的取值。线性模型试图学得一个通过属性的线性组合来进行预测的函数，即：f(x)=w1x1+w2x2+...+wdxD+bf(x)=w_1x_1+w_2x_2+...+w_dx_D+bf(x)=w1x1+w2x2+...+wdxD+bf(x)=wTx+bf(x)=w^Tx+bf(x)=wTx+b2. 线性
复制链接

扫一扫