《统计学习方法》算法学习笔记五之逻辑斯谛回归与最大熵模型

最新推荐文章于 2024-09-18 20:33:32 发布

岳小刀

最新推荐文章于 2024-09-18 20:33:32 发布

阅读量214

点赞数

文章标签：算法机器学习 python 深度学习人工智能

本文链接：https://blog.csdn.net/yly_3026925713/article/details/103840285

版权

本文详细介绍了逻辑斯谛回归与最大熵模型，包括逻辑斯谛分布、二项逻辑斯谛回归模型及其参数估计，以及最大熵模型的学习过程，涉及到最大熵原理和模型的最优化算法。逻辑斯谛回归模型适用于分类问题，最大熵模型通过熵最大化的准则选择最佳模型，两者的学习通常涉及最大似然估计和最优化方法如梯度下降或拟牛顿法。

摘要由CSDN通过智能技术生成

逻辑斯谛回归与最大熵模型

总述

逻辑斯谛回归是统计学习中的经典分类方法。最大熵是概率模型学习的一个准则，将其推广到分类问题得到最大熵模型。逻辑斯谛回归与最大熵模型都属于对数模型。

逻辑斯谛回归模型

1.1 逻辑斯谛分布

逻辑斯谛分布：设 $X$ 是连续随机变量， $X$ 服从逻辑斯谛分布是指 $X$ 具有下列分布函数和密度函数：
在这里插入图片描述
式中， $\mu$ 为未知参数， $\sigma>0$ 为形状参数。

在这里插入图片描述
分布函数在中心附近增长速度较快，在两端增长速度较慢。形状参数 $\sigma$ 的值越小，曲线在中心附近增长越快。

1.2 二项逻辑斯谛回归模型

二项逻辑斯谛回归模型是一种分类模型，由条件概率分布 $p (Y ∣ X)$ 表示，形式为参数化的逻辑斯谛分布。这里，随机变量 $X$ 取为实数，随机变量 $Y$ 取为0或1，通过监督学习的方法来估计模型参数。
逻辑斯谛回归模型：二项逻辑斯谛回归模型是如下的条件概率分布：
在这里插入图片描述
逻辑斯谛回归比较两个条件概率值的大小，将实例 $x$ 分到概率值较大的一类。
从事件几率的角度看（几率指该事件发生的概率与不发生的概率的比值），如果事件发生的概率是 $p$ ，那么该事件的几率是 $p / (1 - p)$ ，该事件的对数几率或logit函数是：
$l o g i t (p) = l o g (p / (1 - p))$ 对逻辑斯谛回归而言，有

由此可见，在逻辑斯谛回归模型中，输出 $Y = 1$ 的对数几率是输入 $x$ 的线性函数。
从分类角度看，考虑对输入 $x$ 进行分类的线性函数 $w * x$ ，其值域为实数域，这里 $x∈R^n+1,w属于R^n+1$ 。通过逻辑斯谛回归模型定义式可以将线性函数 $w * x$ 转化为概率：

线性函数的值越接近正无穷，概率值越接近1；线性值越接近负无穷，概率值越接近0。

1.3 模型参数估计

逻辑斯谛回归模型学习时，对于给定的训练数据集
$T =$ { $x_1,y_1), (x_2,y_2),..., (x_n,y_n),$ }
其中， $x_i属于R^n, y_i∈$ {0,1}。可以应用极大似然估计法训练估计模型参数，从而得到逻辑斯谛回归模型。
设： $p (Y = 1 ∣ x) = π (x)$ ， $p (Y = 0 x) = 1 - π (x)$
似然函数为

对数似然函数为
在这里插入图片描述
对 $L (w)$ 求极大值，得到 $w$ 的估计值。问题变成了以对数似然函数为目标函数的最优化问题，通常采用梯度下降或拟牛顿法求解。

1.4 多项逻辑斯谛回归

假设离散型随机变量 $Y$ 的取值集合为{ $1, 2, . . ., K$ }，则多项逻辑斯谛回归模型是
在这里插入图片描述

2 最大熵模型

2.1 最大熵原理

最大熵原理是概率模型学习的一个准则。最大熵原理认为，学习概率模型时，在所有可能的概率模型（分布）中，熵最大的模型是最好的模型。最大熵原理也可以表述为在满足约束条件的模型集合中选取熵最大的模型。
假设离散随机变量 $X$ 的概率分布是 $p (X)$ ，则其熵是
熵满足下列不等式
$0 \leq H (p) \leq l o g (x)$
式中， $∣ X ∣$ 是 $X$ 的取值个数，当且仅当 $X$ 的分布是均匀分布时右边的等号成立。即当 $X$ 服从均匀分布时，熵最大。
在没有更多信息的情况下，那些不确定的部分都是“等可能的”，最大熵原理通过熵的最大化表示等可能性。