线性模型

最新推荐文章于 2024-06-09 09:14:59 发布

右边是我女神

最新推荐文章于 2024-06-09 09:14:59 发布

阅读量235

点赞数 1

分类专栏：机器学习

本文链接：https://blog.csdn.net/weixin_46365033/article/details/116848690

版权

机器学习专栏收录该内容

23 篇文章 6 订阅

订阅专栏

线性回归

目的

找到一个线性函数，尽可能地准确预测实值输出标记。
$f(x)=\omega x+ b$
于是我们需要找的合适的 $\omega$ 与 $b$ 。

优化问题

我们需要借助性能指标之一——损失函数。
值得一提的是，损失函数既可以作为模型的评价指标，也可以作为模型的优化工具。前者应用在测试集与验证集，后者应用在训练集。
此处采用的损失函数为均方误差(MSE)。
$E(f(x);D)=\sum_{i=1}^m(y_i - f(x_i))^2$
我们的目的是为了让损失函数较小，则此时转化为了无约束的最优化问题。我们采用求导的方式，得到参数，这也被称为最小二乘法。
在这里插入图片描述
矩阵推导：

线性模型的特点

1.形式简单，易于建模；
2.可解释性强；
3.非线性模型的基础；
4.对异常点鲁棒性差。

线性的含义

线性并不指对输入变量的线性，而是对空间参数的线性。即 $\omega$ 是线性的。
对于输入来说，完全可以先对其进行非线性变化，再进行线性组合。

Logistic回归（广义线性回归的特例）

这完成的是一个分类问题。
流程为：
1.预测函数；
2.阈值判定/概率最大值。
分类问题的核心就是确定并优化这个预测函数。

Logistic分布

设X是连续型随机变量，X~Logistic指的是X具有一下分布函数和密度函数。
$F(x)=P(X\le x)=\frac{1}{1+e^{\frac{-(x-\mu)}{\gamma}}}$
$f(x)=\frac{e^{\frac{-(x-\mu)}{\gamma}}}{\gamma(1+e^{\frac{-(x-\mu)}{\gamma}})^2}$
其分布函数又称为Sigmoid函数。是一条S型的曲线。
该分布与正态分布类似，样本集中于均值附近。

Logistic回归模型

将Logistic分布函数作为条件概率，简称为logistic函数。( $\mu=0,\gamma=1$ )
选择这个函数的原因可能只是单纯地性质好。
$P(Y=1|x)=\frac{exp(\omega x+b)}{1+exp(\omega x+b)}$
$P(Y=0|x)=\frac{1}{1+exp(\omega x+ b)}$
为了比较x的类别取值，我们希望得到一个判别函数，于是将两者作比值， $\frac{p}{1-p}$ ，称为Y=1的几率。
几率越大，该事件发生的概率越大。
进一步化简，将几率对数化，就是logit函数：
$logit(p)=log\frac{p}{1-p}=\omega x+b$
震惊：输入Y=1的对数几率是输入x的线性函数！分类的判别函数与回归的函数一致！

优化问题

我们采用的是极大似然法来估计模型的参数。
即损失函数是负对数似然函数。
在这里插入图片描述
该最优化问题采用梯度下降法或牛顿法求解。

优点

1.无需实现假设数据分布；
2.可得到类别的近似概率预测；
3.可直接应用现有数值优化算法求取最优解。

线性判别分析LDA(Linear Discriminant Analysis)

LDA也可视为一种监督降维技术。也称为Fisher判别法。

思想

1.使同类样例的投影点尽可能接近，可以让同类样例投影点的协方差近可能小。
2.欲使异类样例的投影点尽可能远离，可以让类中心之间的距离尽可能大。
投影的位置是一条直线。

需要用到的变量

假设投影到一条直线(数轴)上。
直线为一维空间。

含义	符号
第i类示例的集合	$X_i$
第i类示例的均值向量	$\mu_i$
第i类示例的协方差矩阵	$\sum_i$
两类样本的中心在直线上的投影	$\omega^T\mu_0$ 和 $\omega^T\mu_1$
两类样本的方差	$\omega^T\sum_0\omega$ 和 $\omega^T\sum_1\omega$

预测函数(二分类问题)

从几何角度来讲，将数据映射到一条直线上，尽量分开一些。

几何意义	公式
投影后的类中心距离	$\\|\omega^T\mu_0-\omega^T\mu_1\\|_2^2$
同类样本投影点之间的相关性	$\omega^T\sum_0\omega+\omega^T\sum_1\omega$
类内散度矩阵	$S_\omega=\sum_0+\sum_1$
类间散度矩阵	$S_b=(\mu_0-\mu_1)(\mu_0-\mu_1)^T$

在这里插入图片描述
最后，我们对 $S_\omega$ 进行奇异值分解来求解。
重点：
1.目标函数：分母：中心欧氏距离；分子：两类方差和；
2.Lagrange乘子法；
3.设1法；
4.矩阵求导；
5.奇异值分解；
根据贝叶斯决策论解释：
两类数据同先验、满足高斯分布且协方差相等时，LDA达到最优。

多分类学习任务

可利用二分类学习器决定多分类问题。
步骤：
1.对问题拆分，为拆出的每个二分类问题训练一个分类器；
2.对每个分类器集成，获得多分类结果。

一对一拆分

在这里插入图片描述

一对多拆分

在这里插入图片描述

两种策略比较

1.OvO的存储开销和测试开销通常比OvR大。
在分类器的数量上，OvR少于OvO。
2.类别多时，OvO的训练开销通常比OvR小。
在训练数据上，OvO涉及的样本数量少。
3.预测性能差不多。

多对多拆分策略——ECOC

在这里插入图片描述
海明距离：不一样的位置数量。

操作方法：
1.设定分类器数目以及分类对象；
2.标注码值；
3.计算海明距离。

说明：
1.M划分的最低大小是基于仅将类别两组两组地进行比较，且不重复。
2.只要不同的个数在阈值及一下，肯定能判定正确；
3.设计策略采用的分类器数量，分类器划分方式都是明确的。

类别不平衡问题

不同类别训练样例数相差很大。
概率型二分类问题，常用几率表示预测函数。
通常情况下，我们认为正反比例是一致的，所以将几率判定的阈值设为1.
但实际上，由于类别比例不同，应该将阈值设为 $\frac{m_+}{m_-}$ .
以上都是基于假设我们的训练集是对真实样本总体的无偏采样。
但这样的假设在大多数情况下是不成立的。
也就是说，一般而言，真实分布为对半开，但是我们收集到的却是有偏差的。

再缩放/阈值移动

$\frac{y'}{1-y'}=\frac{y}{1-y}*\frac{m_-}{m_+}$
这样操作的目的是：倘若样本中正例数量偏多。得到的几率会偏向于正例。

欠采样/下采样

去除一些反例，使正反例数目接近；

过采样/上采样

增加一些正例，使正反例数目接近；

右边是我女神

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
打赏
0
评论
线性模型

线性回归目的找到一个线性函数，尽可能地准确预测实值输出标记。f(x)=ωx+bf(x)=\omega x+ bf(x)=ωx+b于是我们需要找的合适的ω\omegaω与bbb。如何确定模型参数我们需要借助性能指标之一——损失函数。值得一提的是，损失函数既可以作为模型的评价指标，也可以作为模型的优化工具。前者应用在测试集与验证集，后者应用在训练集。此处采用的损失函数为均方误差(MSE)。E(f(x);D)=∑i=1m(yi−f(xi))2E(f(x);D)=\sum_{i=1}^m(y_i
复制链接

扫一扫