【西瓜书】第三章对数几率回归

最新推荐文章于 2024-10-04 22:35:25 发布

福娃79

最新推荐文章于 2024-10-04 22:35:25 发布

阅读量1.6k

点赞数 26

文章标签：回归数据挖掘人工智能

本文链接：https://blog.csdn.net/weixin_44867290/article/details/139971571

版权

一、算法原理

上一节是将线性模型应用于回归问题，这一节想解决分类问题。更通用的方法是使用广义线性模型：使用一个单调可微函数将分类任务的真实标记y与线性回归模型的预测值联系起来
二分类的情况，将线性回归的预测值（值域为 $\mathbb{R}$ ）转化为0/1值。理想情况是使用“单位阶跃函数”(unit-step function)
在这里插入图片描述

但是单位阶跃函数并不连续，因此希望能找到其“替代函数”(surrogate function)，要求其拥有单调可微的性质。对数几率函数(logistic function)就是一个常用的替代函数： $\frac{1}{1+e^{-z}}$ 。
对数几率函数是一种“Sigmoid函数”，将z值转化为一个接近0或者1的y值，并且输出值y在z=0的附近变化很陡。将对数几率函数作为广义线性模型的“联系函数”(link function)，可以得到 $\frac{1}{1+e^{-(\omega^Tx+b)}}$ ，实际上是在用线性回归模型的预测结果去逼近真是标记的对数几率，所以其对应的模型成为“对数几率回归”(logistic regression，也叫 logit regression)，进一步可以变化为 $ln(\frac{y}{1-y}) = \omega^Tx+b$ .
$y$ 和 $1 - y$ 视为样本x作为正例和反例的可能，二者比值成为“几率” (odds)，取对数得到“对数几率”(log odds，也称logit) $ln(\frac{y}{1-y})$

优点：

直接对分类可能性建模，无需事先假设数据分布，避免假设分布不准确所带来的问题
不仅仅预测出“类别”，而是得到近似概率预测
对数函数是任意阶可导的凸函数，有很好的数学性质，可以用许多数值优化算法求取最优解

二、参数估计

第一步：确定概率密度函数
在这里插入图片描述

2.1 损失函数的极大似然估计推导

第二步：写出似然函数 $L(\beta) = \prod \limits_{i=1}^mp(y_i | \hat x_i; \beta)$
对数似然函数为 $\mathcal{l}(\beta) = ln L(\beta)= \sum \limits_{i=1}^m ln p(y_i | \hat x_i; \beta)$
$\mathcal{l}(\beta) = \sum \limits_{i=1}^m ln (y_i p_i( \hat x_i; \beta) +(1-y_i)p_0(\hat x_i;\beta))$
将 $p_1(\hat x_i;\beta) = \frac{e^{\beta^T\hat x_i}}{1+e^{\beta^T\hat x_i}}$ ， $p_0(\hat x_i;\beta) = \frac{1}{1+e^{\beta^T\hat x_i}}$ 带入上式可得
$\mathcal{l}(\beta) = \sum \limits_{i=1}^m ln(\frac{y_ie^{\beta^T\hat x_i}}{1+e^{\beta^T\hat x_i}}+\frac{1-y_i}{1+e^{\beta^T\hat x_i}})=\sum \limits_{i=1}^m ln(\frac{y_ie^{\beta^T\hat x_i}+1-y_i}{1+e^{\beta^T\hat x_i}})=\sum\limits_{i=1}^m(ln(y_ie^{\beta^T\hat x_i}+1-y_i)-ln(1+e^{\beta^T\hat x_i}))$
在这里插入图片描述
通过极大似然估计法得到了损失函数

在这里插入图片描述

2.2 损失函数的信息论推导

自信息： $I(X) = -log_bp(x)$
当 $b = 2$ 时单位为bit，当 $b = e$ 时单位为nat
信息熵(自信息的期望)： 度量随机变量X的不确定性，信息熵越大越不确定。
eg: $p 1 = 1, p 2 = 0$ ，可以确定来自p1的类别，则不确定性很小；
$p 1 = p 1 = 0.5$ ，则不能分辨类别，不确定性很大，信息熵也越大
以离散型为例： $=E[I(X)]=-\sum\limits_xp(x)log_bp(x)$
计算信息熵时约定：若 $p (x) = 0$ ，则 $p(x)log_bp(x)=0$
相对熵(KL散度)： 度量两个分布的差异，其典型使用场景是用来度量理想分布 $p (x)$ 和模拟分布$q(x)之间的差异

$D_{KL}(p||q) = \sum\limits_xp(x)log_b(\frac{p(x)}{q(x)})= \sum\limits_xp(x)(log_bp(x)-log_bq(x))=\sum\limits_xp(x)log_bp(x)-\sum\limits_xp(x)log_bq(x)$

其中 $-\sum\limits_xp(x)log_bq(x)$ 称为交叉熵
从机器学习三要素中的“策略”来说，可以通过最小化相对熵的策略求出最有分布，也即理想分布最接近的模拟分布。由于理想分布 $p (x)$ 是未知但固定的分布，所以公式的前一项 $\sum\limits_xp(x)log_bp(x)$ 为常量，所以最小化相对熵就等价于最小化后一项交叉熵 $-\sum\limits_xp(x)log_bq(x)$
下面来看交叉熵是多少，以对数几率回归为例：
在这里插入图片描述
那么单个样本 $y_i$ 的交叉熵为

可以看到和通过极大似然估计法估计出来的损失函数是一样的