机器学习复习

最新推荐文章于 2024-05-14 10:46:53 发布

少时诵诗书生生世世是s

最新推荐文章于 2024-05-14 10:46:53 发布

阅读量302

点赞数

本文链接：https://blog.csdn.net/weixin_45594331/article/details/127705801

版权

$L_p$ 范数的概念、公式、计算方式

所谓范数即是抽象之长度，通常意义上满足长度的三种性质：非负性、齐次性和三角不等式。

$L_p = \lVert x \rVert_p = (\sum^n_{i=1}\lvert x_i \rvert^p)^\frac{1}{p}$

$x^Tx = \lVert x \rVert_2^2 \rightarrow L_2^2$

$x^Tw = w^Tx = \sum^n_{i=1}w_ix_i$

展开

$\begin{aligned}L(\tilde w) &= (X\tilde w - y)^T(X\tilde w - y) \\ &= ((X\tilde w)^T - y^T)(X\tilde w - y) \\ &= (X\tilde w)^TX\tilde w - (X\tilde w)^Ty - y^TX\tilde w + y^Ty \\ &= (\tilde w X)^TX\tilde w - y^T(X\tilde w) - y^TX\tilde w + y^Ty \\ & = \tilde w^TX^TX\tilde w - 2y^TX\tilde w + y^Ty \end{aligned}$

$\begin{aligned} &\frac{\partial L(\tilde{w})}{\partial \tilde{w}} \\ &=\frac{\partial(\tilde w^TX^TX\tilde w - 2y^TX\tilde w + y^Ty)}{\partial \tilde w} \\ &=\frac{\partial(\tilde w^TX^TX\tilde w - 2(X^Ty)^T\tilde w + y^Ty)}{\partial \tilde w} \\ &=2X^TX\tilde w - 2X^Ty \\ &=2X^T(X\tilde w - y) \end{aligned}$

$L(\widetilde w) = \sum^n_{i=1}(\widetilde w^Tx_i - y_i)^2 = \sum^n_{i=1}(x_i^T\widetilde w - y_i)^2$

$\begin{bmatrix} x_1^T\widetilde w - y \\ x_2^T\widetilde w - y \\ \dots \\ x_n^T\widetilde w - y \end{bmatrix}= \begin{bmatrix} x_1^T\widetilde w \\ x_2^T\widetilde w \\ \dots \\ x_n^T\widetilde w \end{bmatrix}- y=x\widetilde w - y$

基本求导法则

$\frac{\partial uv}{\partial x} = u\frac{\partial u}{\partial x} + v\frac{\partial u}{\partial x}$

链式法则

$\frac{\partial f(u)}{\partial x} = \frac{\partial f(u)}{\partial u} \cdot \frac{u}{\partial x}$

求导公式

$\frac{\partial w^Tx}{\partial x} = \frac{\partial x^Tw}{\partial x} = w$

$\frac{\partial x^Tx}{\partial x} = 2x$

$\frac{\partial b^TAx}{\partial x} = Ab^T$

$\frac{\partial x^TAx}{\partial x} = (A^T + A)x \underrightarrow{\text{对称矩阵}} 2Ax \\ 必须x^Tx为满秩矩阵或正定矩阵 \\ 2x^Tx\tilde w = 2x^Ty \\ \tilde w = (x^Tx)^{-1}x^Ty$

过拟合与欠拟合

过拟合: 学习时选择的模型参数过多对已知数据预测的很好,但对其他未知数据预测很差的现象,模型可能只记住了训练数据,没有学习到数据特征.

欠拟合: 模型描述能力太差,以至于不能很好的学习数据中的规律.

防止过拟合手段:增加训练数据集,使用正则化约束,减少特征数,调整参数,降低模型复杂度

LASSO,加入 $L_1$ 正则化

$\sum^n_{i=1}(y_i - (\sum^m_{j=1}w_jx_{i, j}+b))^2 + \lambda\sum^m_{j=1}\lvert w_j\rvert$

岭回归损失函数

$\sum^n_{i=1}(y_i - (\sum^m_{j=1}w_jx_{i, j} + w_0))^2 + \lambda\sum^m_{j=1}w_j$

正则化的原理: 对原函数添加一个惩罚函数, 通过对原函数的相关系数进行一定的惩罚,使得函数逐渐逼近最优解,在不同情况下可以改变惩罚函数,使得模型训练出的数据更加稀疏.

1、 $L_1$ 是模型参数的绝对值之和 $L_2$ 是模型参数的平方之和的开方值

2、 $L_1$ 会趋于产生少量特征,其他特征为0,因为最优值大概率出现在坐标轴上,使得某一维权重和为0,产生稀疏权重矩阵 $L_2$ 会选择更多的特征,特征都接近于0,最优的参数值很小概率在坐标轴上,每一维的参数不会是0,最小化 $\lVert w\rVert$ 时,使得每一项都接近0.

线性回归模型三要素

$w$ 是 $x$ 的权值

一元 $y = w x + b$

多项式: $\hat y_i = b + \sum^n_{j=1}w_ix_{i, j}$

$x_{i,j}$ :第 $i$ 个数据的第 $j$ 个特征

$w_j$ :第 $j$ 个特征的权重

损失函数

$\sum^n_{i=1}(f(x_i) - y_i)^2$

线性回归的闭式解

$W = (X^TX)^{-1}X^TY$

一元线性回归闭式解,分别对 $w$ , $b$ 求偏导

$\begin{aligned} & \frac{\partial \sum^n_{i=1}((wx_i + b) - y_i)^2}{\partial w} \\&= \frac{\partial \sum^n_{i=1}(wx_i)^2 + (b - y_i)^2 - 2wx_i(b - y_i)}{\partial w}\\ &=2wx_i^2 - x_i(b - y_i) \\&=2(\sum^n_{i=1}wx_i^2-\sum^n_{i=1}x_i(b - y_i)) \end{aligned}$

$\begin{aligned} & \frac{\partial\sum^n_{i=1}(b + wx_i - y_i)^2}{\partial(b)} \\ &= b^2 + 2b(wx_i - y_i) + (wx_i - y_i)^2 \\ &= \sum^n_{i=1} 2b + \sum^n_{i=1}2(wx_i - y_i) \\ &= 2(nb - \sum^n_{i=1}(wx_i + y_i)) \end{aligned}$
令两者偏导为0
得:
$\frac{\sum^n_{i=1}y_i(x_i - \bar x)}{\sum^n_{i=1}x_i^2-\frac{1}{n}((\sum^n_{i=1}x_i)^2)}$

$\frac{1}{n}\sum^n_{i=1}(y_i - wx_i)$

线性回归评价指标

均方误差(MSE): $\frac{1}{m}\sum^{m}_{i=1}(y^{(i)} - \hat y^{(i)})^2$

均方根误差(RMSE)： $\sqrt{MSE} = \sqrt{\frac{1}{m}\sum^{m}_{i=1}(y^{(i)} - \hat y^{(i)})^2}$

平均绝对误差(MAE)： $\frac{1}{m}\sum^{m}_{i=1} \lvert (y^{(i)} - \hat y^{(i)} \rvert$

但以上评价指标都无法消除量纲不一致而导致的误差值差别大的问题，最常用的指标是 $R^2$ ,可以避免量纲不一致问题

$R^2: = 1-\frac{\sum^{m}_{i=1}(y^{(i)} - \hat y^{(i)})^2}{\sum^{m}_{i=1}(\bar y - \hat y^{(i)})^2} =1-\frac{\frac{1}{m}\sum^{m}_{i=1}(y^{(i)} - \hat y^{(i)})^2}{\frac{1}{m}\sum^{m}_{i=1}(\bar y - \hat y^{(i)})^2} = 1-\frac{MSE}{VAR}$

我们可以把 $R^2$ 理解为，回归模型可以成功解释的数据方差部分在数据固有方差中所占的比例， $R^2$ 越接近1，表示可解释力度越大，模型拟合的效果越好。

logistic回归

$\frac{1}{1 + e^{-z}}$

$s i g m o i d$ 求导:
$\begin{aligned}g^{'}(z) &= \frac{d\frac{1}{1+e^{-z}}}{dz} \\ &= \frac{-\frac{d(1+e^{-z})}{dz}}{(1+e^{-z})^2} \\ &= \frac{1}{(1+e^{-z})^2}(-\frac{d(1)}{dz} - \frac{d(e^{-z})}{dz})\\ &= \frac{1}{(1+e^{-z})^2}(-0 - \frac{de^{-z}}{dz})\\ &= \frac{1}{(1+e^{-z})^2}(-\frac{de^{-z}}{d(-z)}\frac{d(-z)}{dz})\\ &= \frac{1}{(1+e^{-z})^2}(-e^{-z}(-1)) \\ &= \frac{1}{(1+e^{-z})^2}(e^{-z}) \\ &= \frac{1}{(1+e^{-z})^2} .(1 - \frac{1}{1 + e^{-z}}) \\ &= g(z)(1 - g(z))\end{aligned}$

$\begin{align*} f(x) &= \frac{d}{dx}(\frac{e^x}{1+e^x}) \\ &= \frac{\frac{d}{dx}(e^x)(1+e^x) - \frac{d}{dx}(1 + e^x)e^x}{(1 + e^x)^2} \\ &= \frac{e^x(1 + e^x) - e^xe^x}{(1+e^x)^2} \\ &= \frac{e^x}{(1 + e^x)^2} \\ &= \frac{f(x)}{(1 + e^x)} \\ &= f(x)(1-f(x)) \end{align*}$

$z = w^Tx + b$

logistic回归是用线性回归模型的预测结果去逼近真实标记的对数几率

$\begin{aligned} \hat y &= \frac{1}{1+e^{-(w^Tx + b)}} \\ \frac{1}{\hat y} &= 1+e^{-(w^Tx + b)} \\ \frac{1 - \hat y}{\hat y} &= e^{-(w^Tx + b)} \\- ln \frac{1 - \hat y}{\hat y} &= (w^Tx + b) \\ ln \frac{\hat y}{1 - \hat y} &= w^Tx + b \end{aligned}$

为了便于处理,令 $\bar w = <w; b>$ 依然令 $w_{i,0} = 1$
$\hat y = \frac{1}{1 + e^{-(\bar w^{T}x)}} \quad 决策函数$

损失平方和损失函数

$L_{mse}(w^{~} = \sum^n_{i=1}(y_i - \frac{1}{1+e^{-(w^{-T}x)}}))$

随机梯度

对 $w_i$ 的偏导

$\begin{aligned} &\partial(y_i - \frac{1}{1 + e^{\tilde{w}^Tx}})^2 \\ &= \frac{\partial(y_i - g(\tilde{w}^Tx))^2}{\partial(y_i - g(\tilde{w}^Tx))} \cdot \frac{\partial(y_i - g(\tilde{w}^Tx))}{\partial(\tilde w^Tx)} \cdot \frac{\partial(\tilde{w}^Tx)}{\partial(\tilde w_i)} \\ &= 2(y_i - \hat y) \cdot (0 - g(\tilde w^Tx)(1 - g(\tilde{w}^Tx))\cdot x_i \\ &= 2(\hat y_i - y_i) \cdot \hat y_i(1 - \hat y_i) \cdot x_i \end{aligned}$

预测结果和真实值相差大,偏导数接近 $0$ ,意味着下降缓慢,很难找到全局最优

误差平方和可以作为 $l o g i s t i c$ 回归的损失函数,但不推荐,因为损失函数是非凸函数,容易陷入局部最优,且梯度下降难以训练,常远离最优解的地方,下降缓慢

0-1损失不能作为logistic回归模型的损失函数

真实结果只能取 ${0, 1}$ ,而 $l o g i s t i c$ 取不到 ${0, 1}$

logistic回归的二元交叉熵损失函数

$\begin{aligned} L_{ce}(\tilde{w}) &= -\sum^n_{i=1}(y_i \cdot log \hat y_i + (1 - y_i) \cdot log(1 - \hat y_i))) \\ &= -\sum^n_{i=1}(y_i \cdot \log f(x_i) + (1 - y_i) \cdot log(1 - f(x_i))) \end{aligned}$

可以通过极大似然估计得到相交结果

梯度下降的推导

迭代优化的更新公式: $w^{(t+1)} = w^{(t)} + \eta \cdot v \quad \eta步长 v方向$

$\begin{aligned} v &= -\frac{\nabla L(w^{(t)})}{\lVert \nabla L(w^{(t)}) \rVert} \\ w^{(t + 1)} &= w^{(t)} - \eta \cdot \frac{\nabla L(w^{(t)})}{\lVert \nabla L(w^{(t)}) \rVert} \\ 令 \alpha &= \frac{\eta}{\lVert \nabla L(w^{(t)}) \rVert} 学习率 \\ w^{(t + 1)} &= w^{(t)} - \alpha \nabla L(w^{(t)}) \quad \nabla L(w^{(t)}) 步径 \end{aligned}$

线性回归和logistic回归的区别

线性回归用来预测连续的变量（房价预测），逻辑回归用来预测离散的变量（分类，癌症预测）
线性回归是拟合函数，逻辑回归是预测函数
线性回归的参数计算方法是最小二乘法，逻辑回归的参数计算方法是似然估计的方法
线性回归要求变量服从正态分布，逻辑回归对变量分布没有要求。
线性回归要求因变量是连续性数值变量，逻辑回归要求因变量是分类型变量。
线性回归要求自变量和因变量呈线性关系，逻辑回归不要求自变量和因变量呈线性关系
逻辑回归是分析因变量取某个值的概率与自变量的关系，而线性回归是直接分析因变量与自变量的关系

BGD:批量梯度下降

更新参数形式 $\tilde{w}^{(t + 1)} = \tilde{w}^{(t)} - \lambda \frac{1}{n}(x^Th)$ 每一步迭代都要用到所有数据

优点:

一次迭代是对所有样本进行计算，此时利用矩阵进行操作，实现了并行。
由全数据集确定的方向能够更好地代表样本总体，从而更准确地朝向极值所在的方向。当目标函数为凸函数时，BGD一定能够得到全局最优。

缺点:

当样品数目n很大,计算量将非常大,导致训练速度缓慢,甚至无法容纳数据集.
它不能以在线的形式更新模型,不能在运行中加入样本

SGD:随机梯度下降

为解决BGD中训练样本过大导致迭代速度缓慢这一弊端

损失函数 $L_{sgd}(\tilde w) = -(y_i logf_{\tilde{w}}(x_i) + 1 - y_i) \cdot log(1 - f_{\tilde w}(x_i))$

偏导数: $\frac{\partial}{\partial \tilde w_j} L_{sgd}(\tilde w) = (f_{\tilde w}(x_i) - y_i) \cdot x_{ij}$

梯度: $x_i^Th$

更新参数形式:
$\bar w^{(t+1)} = \bar w^{(t)} - \alpha(x_i^T h)$

针对非凸函数,BGD可能会落入局部最优,而SGD波动性强,可能使目标函数跳入另一个更小的极小值,由于其波动性强,其收敛速度慢

Mini-batch梯度下降

每一次迭代随机训练一个由数据样本索引组成的小批量B

损失函数: $L_{mbgd}(\tilde w) = -\frac{1}{b}\sum_{i \in B}(y_i log f_{\tilde w}(x) + (1 - y_i)log(1-f_{\tilde w}(x_i)))$

更新向量方式: $\tilde{w}^{(t+1)} = w^{(t)} - \frac{1}{b}(x^Th)$

mini batch不是每次迭代损失函数都会减少，所以看上去好像走了很多弯路

分类性能度量

混淆矩阵	预测结果	预测结果
真实值	正例	反例
正则	TP(真正例,真阳性)	FN(假反例,假阴性)
反例	FP(假真例,假阳性)	TN(真反例,真阴性)

查准率 = 真阳性/(真阳性+假阳性)

$\frac{TP}{TP+FP}$

查全率 = 真阳性/(真阳性+假阴性性)

$\frac{TP}{TP+FN}$

闵氏距离

$d_{i, j} = (\sum^m_{k=1} \lvert x_{ki} - x_{kj} \rvert^p)^{\frac{1}{p}}$

当 $p = 1$ 时,曼哈顿距离: $d_{i, j} = (\sum^m_{k=1} \lvert y_{ki} - x_{kj} \rvert)$

当 $p = 2$ 时,欧氏距离: $d_{i, j} = (\sum^m_{k=1} \lvert x_{ki} - x_{kj} \rvert^2)^{\frac{1}{2}}$

当 $\infty$ 时,切比雪夫距离;即取各个坐标差的绝对值最大值: $d_{i, j} = max_k(\lvert x_{ki} - x_{kj} \rvert)$

K-means

1.假设空间: 由输入空间到输出空间的映射集合
输入空间为数据集 $D={x_1, x_2,\dots, x_n}$ ,输出空间类别集合为 $c={c_1, c_2, \dots, c_k}$ 该映射是一个函数空间,每个函数为一种划分或聚类的关系

聚类算法的目标通常用一个目标函数来表示,采用欧几里得距离度量相似性的k-means算法,使用误差平方和作为度量聚类质量的目标函数,给定包含n个数据对象的数据集合 $D=[x_1, x_2, ..., x_3]$ 定义经由k-means算法进行聚类分析后产生的类别集合为 $C=[C_1, C_2, ..., C_k]$

k-means三要素

距离度量、k值选取和分类决策规则

2.目标函数:判断中心点不再变化了

$\sum^K_{K=1}\sum_{x_i \in C_k}\lVert x_i - c_k \rVert^2$

$c_k$ 是簇 $C_k$ 的中心点,计算方法如下所示:

$c_k = \frac{\sum_{x_{i}\in C_k}x_i}{\lvert C_k\rvert}$

当近邻函数是欧几里得距离且目标是最小化SSE时,选取均值点作为 $k - m e an s$ 算法的簇中心点上可以从数学上推导出来的.

对于一维数据,SSE可以写成

$\sum^K_{K=1}\sum_{x_i \in C_k}(x_i - c_k)^2$

对SSE求导,令导数值为0,并求解 $c_k$ .

$\begin{aligned} \frac{\partial}{\partial c_j}SSE &= \frac{\partial}{\partial c_j}\sum^K_{k=1}\sum_{x_i \in C_k}(c_k - x_i)^2 \Rightarrow \sum_{x_i \in C_j}2(c_j - x_i) = 0 \Rightarrow c_j = \frac{\sum_{x_i \in C_j}x_i}{\lvert C_j\rvert} \end{aligned}$