吃，吃个大西瓜-第三章

吴志伟Maple

已于 2022-11-12 10:02:37 修改

阅读量359

点赞数

分类专栏：西瓜书文章标签：算法线性代数人工智能概率论

于 2022-11-10 00:00:03 首次发布

本文链接：https://blog.csdn.net/weixin_44015047/article/details/127779982

版权

西瓜书专栏收录该内容

1 篇文章 0 订阅

订阅专栏

第三章线性回归模型

1、原理

线性回归模型试图学得一个通过属性的线性组合来进行预测的函数，即：
$f(\bold{x}) = w_1x_1 + w_2x_2 + ... + w_dx_d + b$
其向量形式为：
$f(\bold{x}) = \bold{w^Tx + b}$
通过学习得到 $\bold{w}$ 和 $b$ ,模型就确定了。

规定：当向量中的元素用分号“;”分隔时表示此向量为列向量，用逗号“,”分隔时表示为行向量。

1、数据集： $\{(\bold{x_1},y_1),(\bold{x_2},y_2),...,(\bold{x_m},y_m)\}$

2、样本属性： $\bold{x_i} = (x_{i1};x_{i2};...;x_{id})$ ===>为(d*1)的列向量

3、参数（w）： $\bold{w} = (w_1;w_2;...;w_d)$ ===>为(d*1)的列向量

4、维度： $m$ = 样本数量， $d$ = 属性数量

5、总体样本： $\bold{x} = (x_1, x_2,...,x_m)$ ===>代入 $\bold{x_i}$ ，得到(d*m)矩阵

6、表达式： $\bold{w^Tx}$ ===>为(1*d)*(d*m)得到(1*m)的行向量

预测：

对于某个样本，试图学得： $f(x_i) = wx_i + b$ ,使得 $f(x_i)\approx y_i$

属性数值化

为了能进行数学运算，样本中的非数值类属性都需要进行数值化。对于存在“序”关系的属性，可通过
连续化将其转化为带有相对大小关系的连续值；对于不存在“序”关系的属性，可根据属性取值将其拆解为
多个属性，例如“西瓜书”中所说的“瓜类”属性，可将其拆解为“是否是西瓜”、“是否是南瓜”、“是否是黄
瓜”3 个属性，其中每个属性的取值为1 或0，1 表示“是”，0 表示“否”。具体地，假如现有3 个瓜类样本：
x1 = (甜度= 高; 瓜类= 西瓜), x2 = (甜度= 中; 瓜类= 南瓜), x3 = (甜度= 低; 瓜类= 黄瓜)，其中“甜
度”属性存在序关系，因此可将“高”、“中”、“低”转化为{1.0, 0.5, 0.0}，“瓜类”属性不存在序关系，则按照上
述方法进行拆解，3 个瓜类样本数值化后的结果为：x1 = (1.0; 1; 0; 0), x1 = (0.5; 0; 1; 0), x1 = (0.0; 0; 0; 1)。

2、计算

均方误差是回归任务中常用的性能度量，因此我们试图让均方误差最小化，即：
$(w^*,b^*) = arg min_{(w,b)}\sum_{i=1}^m(f(x_i)-y_i)^2$
$min_{(w,b)}\sum_{i=1}^m(y_i-wx_i-b)^2$
求解 $w$ 和 $b$ 使得 $E_{(w,b)} = \sum_{i=1}^m(y_i-wx_i-b)^2$ 最小化的过程，称为线性回归模型的最小二乘“参数估计”（parameter estimation）

将 $E_{(w,b)}$ 分别对 $w$ 和 $b$ 求导，得到：
$\frac{\partial{E}}{\partial{w}} = 2\left( w\sum^m_{i=1}x^2_i - \sum^m_{i=1}(y_i-b)x_i \right)$
$\frac{\partial{E}}{\partial{b}} = 2\left( mb - \sum^m_{i=1}(y_i-wx_i) \right)$

闭式解是指可以通过具体的表达式解出待解参数

令上面两式等于0，得到：
$\frac{\sum^m_{i=1}y_i(x_i-\overline{x})}{\sum^m_{i=1}x^2_i-\frac{1}{m}(\sum^m_{i=1}x_i)^2} = \frac{\sum^m_{i=1}(y_i-\overline{y})(x_i-\overline{x})}{\sum^m_{i=1}(x_i-\overline{x})^2}$
$\frac{1}{m}\sum^m_{i=1}(y_i-wx_i) = \overline{y}-w\overline{x}$
其中：
$\overline{x} = \frac{1}{m}\sum^m_{i=1}x_i,\quad \overline{y} = \frac{1}{m}\sum^m_{i=1}y_i$

为便于讨论，令 $\bold{\hat{w}} = (\bold{w};b) = (w_1;w_2;...;w_d;b),\bold{\hat{x}_i} = (x_{i1};x_{i2};...;x_{id};1)$ ,那么 $w^*,b^*)$ 可简化为:

$\hat{w}^* = argmin_{\hat{w}}\sum^m_{i=1}\left(y_i-\hat{w}^T\hat{x}_i\right) = argmin_{\hat{w}}\sum^m_{i=1}\left(y_i-\hat{x}^T_i\hat{w}\right)$
$\hat{w}^* = argmin_{\hat{w}}(\bold{y-X\hat{w}})^T(\bold{y-X\hat{w}})$
将 $E_{\hat{w}} = (\bold{y-X\hat{w}})^T(\bold{y-X\hat{w}})$ 展开并求导得，
$\frac{\partial{E_{\hat{w}}}}{\partial{\hat{w}}} = \bold{2X^T(X\hat{w}-y)}$
令求导为0，得
$\bold{\hat{w} = (X^TX)^{-1}X^Ty}$

引入正则化项（regularization），使矩阵为满秩矩阵

3、线性模型的变化

对数线性回归
$\bold{w^Tx} + b$

形式上还是线性回归，但实质上是在求取输入空间到输出空间的非线性函数映射

更一般的，考虑单调可微函数g(·)，令
$g^{-1}( \bold{w^Tx} + b)$
这样得到的模型称为“广义线性模型”，其中g(·)称为“联系函数”。

4、对数几率回归

通过“广义线性模型”，将线性回归应用到分类任务中

1、逻辑回归 LogisticRegression
$\frac{1}{1+e^{-(\bold{w^Tx} + b)}}$
上式可变化为：
$ln\frac{y}{1-y} = \bold{w^Tx} + b$

将 y 视为样本 x 作为正例的可能性，则1-y 是其反例的可能性，两者的比值 $\frac{y}{1-y}$ ，称为“几率”，取对数后称为“对数几率”
后验概率估计 $p (y = 1 ∣ x)$ , $p (y = 0 ∣ x)$

上式重写为概率形式：
$ln\frac{p(y = 1 | x)}{p(y = 0 | x)} = \bold{w^Tx} + b$
有：
$\frac{1}{1+e^{-(\bold{w^Tx} + b)}} = \frac{e^{(\bold{w^Tx} + b)}}{1+e^{(\bold{w^Tx} + b)}}$
$\frac{1}{1+e^{(\bold{w^Tx} + b)}}$
可通过“极大似然法”来估计 $w$ 和 $b$ ，
$\sum^m_{i=1}lnp(y_i| x_i;w,b)$