西瓜书读书笔记2-第三章线性模型

最新推荐文章于 2024-10-19 23:58:18 发布

Sunny_孙某人

最新推荐文章于 2024-10-19 23:58:18 发布

阅读量321

点赞数

文章标签：机器学习逻辑回归算法

本文链接：https://blog.csdn.net/weixin_46469850/article/details/127348216

版权

线性模型回归分析最小二乘法对数几率回归广义线性模型

关键词由CSDN通过智能技术生成

3.1基本形式

给定由d个属性描述的示例 $x=(x_1;x_2;...;x_d)$ ，其中 $x_i$ 是 $x$ 在第 $i$ 个属性的取值。线性模型（linear model）有两种表达方式
普通形式 $f(x)=w_1x_1+w_2x_2+...+w_3x_3+d$ 向量形式 $f(x)=w^Tx+b$
当向量 $w$ 和 $b$ 确定时，模型得以确定。

3.2线性回归

线性回归（linear regression）

试图学得一个线性模型尽可能准确地预测实值输出标记。

均方误差（亦称平方损失square loss）

是回归任务中最常用的性能度量： $(w^*,b^*)=arg min_{(w,b)}\Sigma^m_{i=1}(f(x_i)-y_i)^2\\ =arg min_{(w,b)}\Sigma^m_{i=1}(y_i-wx_i-b)^2$
基于均方误差最小化进行模型求解的方法为最小二乘法（least wquare method）。

参数估计（parameter etimation）

求解 $w$ 和 $b$ 使均方误差最小化的过程，是线性回归模型的最小二乘“参数估计”，可将 $E_{w,b}$ 分别对 $w$ 和 $b$ 求偏导，令其偏导等于零，得到 $w$ 和 $b$ 最优解的闭式（closed-form）解。推导过程如下：
在这里插入图片描述
最后求解可得

注：此处使用凸函数的知识，验证 $E_{w,b}$ 为凸函数后，当关于 $w$ 和 $b$ 的偏导都为零时为最优解。参考《最优化基础理论与方法》

多元线性回归的向量表示

此时线性模型为 $f(x_i)=w^Tx_i+b$ ，为了将 $f(x_i)$ 转换成两个向量的乘积，我们引入向量 $\hat{w}=(w;b)$ ， $\hat{x_i}=(x_i;1)^T$ 。此时线性模型有：
$f(x_i)=\hat{w}^T\hat{x_i}$
将上式带入损失函数，得到 $E_{\hat w}$ ，可得 $\hat{w}^*=arg_{\hat{w}^*}min(y-X\hat{w})^T(y-X\hat{w})$
$E_{\hat w}$ 对 $\hat{w}$ 求导，使其导数为零，得到 $\hat w$

$\frac{\partial E_{\hat w}}{\partial \hat{w}}=2X^T (X\hat w-y)$
$\hat w^*=(X^TX)^{-1}X^Ty$
最终有多元线性回归模型 $f(\hat x_i)=\hat x_i^T(X^TX)^{-1}X^Ty$

注：现实任务中我们会一道大量的变量，导致 $X$ 的列数多于行数， $X^TX$ 不满秩，此时可以解出多个 $\hat w$ ，引入正则化(regularization)项，选择一个解作为输出。

广义线性回归模型（generalized linear model）

可将线性模型中 $x$ 和 $y$ 替换为他们的衍生物，例如 $\ln y$ ，其表达式为： $y=g^{-1}(w^Tx+b)$
我们称 $g (\cdot)$ 为联系函数（link function）.

3.3对数几率回归

基本思想

找一个单调可微函数将分类任务的真实标记 $y$ 与线性回归模型的预测值联系起来.最理想的是单位阶跃模型,但不连续, 不能直接作为 $g^-(·)$ . 我们希望寻找一个替代函数(surrogate function), 本文为对数几率函数(logistic function): $y=\frac{1}{1+e^{-z}}$
将对数几率函数作为 $g^-(·)$ 带入广义线性模型, 得到 $y=\frac{1}{1+e^{-(w^Tx+b)}}$
$\ln \frac{y}{1-y}=w^Tx+b$

如果将 $y$ 是为样本 $x$ 为正例的可能性, 则 $1 - y$ 是其为反例的可能性, 二者比值被称为几率odds $\frac {y}{1-y}$ , 反映正例的相对可能性. 几率的对数被称为对数几率log odds $\ln \frac{y}{1-y}$
这个模型是用线性回归模型的预测结果去逼近真实标记的对数几率,模型被称为 “对数几率回归” ,这是一种分类学习方法

参数估计

将 $y$ 改写为概率估计 $p (y = 1∣ x)$ ,则模型可改写为 $\ln \frac{p(y=1|x)}{p(y=0|x)}=w^Tx+b$
显然, $p(y=1|x)=\frac {e^{w^Tx+b}}{1+e^{w^Tx+b}}$
$p(y=0|x)=\frac {1}{1+e^{w^Tx+b}}$
我们可以通过极大似然估计确定 $w$ 和 $b$