统计学习方法第六章——逻辑回归与最大熵模型阅读笔记

xjmxyt

已于 2022-07-01 00:05:22 修改

阅读量274

点赞数

分类专栏：机器学习统计学习方法文章标签：逻辑回归学习机器学习

于 2022-07-01 00:03:03 首次发布

本文链接：https://blog.csdn.net/xjmxyt/article/details/125544068

版权

统计学习方法同时被 2 个专栏收录

2 篇文章 0 订阅

订阅专栏

机器学习

1 篇文章 0 订阅

订阅专栏

逻辑回归

logistic分布

我们最常用的逻辑回归二分类模型如下：
$P(Y=1|x)=\frac{exp(w*x)}{1+exp(w*x)}$
$P(Y=0|x)=\frac{1}{1+exp(w*x)}$
定义事件发生的几率为 $\frac{p}{1-p}$ ，该事件的对数几率即logit函数为 $logit(p)=\frac{p}{1-p}$ ，对logistic回归而言有 $log\frac{P(Y=1|x)}{1-P(Y=1|x)}=w*x$

模型参数估计

最大化对数似然函数
$L(w)=\sum_{i=1}^{N}[y_ilog\pi(x_i)+(1-y_i)log(1-\pi(x_i))]\\=\sum_{i=1}^{N}[y_i\frac{log\pi(x_i)}{1-log\pi(x_i)}+log(1-\pi(x_i))]\\=\sum_{i=1}^{N}[y_i(w*x_i)-log(1+exp(w*x_i))]$
其中 $\pi (x)=P(Y=1|x)$
对 $L (w)$ 求极大值，得到 $w$ 的估计值

最大熵模型

最大熵原理认为，学习概率模型时，在所有可能的概率模型分布中，熵最大的模型是最好的模型。
假设离散随机变量X的概率分布是P(X)，则其熵
$H(P)=-\sum_{x}P(x)logP(x)$
首先必须满足已有的事实，即约束条件。

最大熵模型的定义

给定数据集，可以确定联合分布P(X,Y)和边缘分布P(X)，以 $\widetilde P(X,Y)$ , $\widetilde P(X)$ 表示，这里
$\widetilde P(X=x, Y=y) = \frac{v(X=x,Y=y)}{N}$
$\widetilde P(X=x) = \frac{v(X=x)}{N}$
$v (X = x, Y = y)$ 表示训练数据中样本 $(x, y)$ 出现的频数， $v (X = x)$ 表示训练数据中输入 $x$ 出现的频数， $N$ 表示样本容量。
用特征函数 $f (x, y)$ 描述输入 $x$ 和输出 $y$ 之前的某一个事实，其定义为
$\begin{cases} 1& \text{x与y满足某一事实} \\ 0& \text{otherwise} \end{cases}$
特征函数关于经验分布 $\widetilde P(X,Y)$ 的期望值用 $E_{\widetilde P}(f)$ 表示
$E_{\widetilde P}(f)=\sum_{x,y}\widetilde P(x,y)f(x,y)$
特征函数关于模型 $P (Y ∣ X)$ 与经验分布 $\widetilde P(X)$ 的期望值用 $E_{P}(f)$ 表示
$E_{P}(f)=\sum_{x,y}\widetilde P(x)P(y|x)f(x,y)$
如果模型能获得训练数据中的信息，那么就可以假设这两个期望值相等（即 $P (y ∣ x)$ 如果是正确的，那 $P (x, y) = P (x) P (y ∣ x)$ ）
下面给出了最大熵模型的定义。这里补充一个条件熵的定义：如果 ${H} (Y|X=x)$ 为变数 $Y$ 在变数 $X$ 取特定值 $x$ 条件下的熵，那么 ${H} (Y|X)$ 就是 ${H} (Y|X=x)$ 在 $X$ 取遍所有可能的 $x$ 后取平均的结果。
在这里插入图片描述

这里需要去思考一个问题：为什么最大化的是条件熵？
最大熵模型的原理可以表述为在满足约束条件的模型集合中，在没有更多信息的情况下，那部分不确定的事件都是“等可能的”（“等可能”用熵来表述就是熵最大，熵是一个数值指标）。
我们需要注意监督学习的模型有两种。要么学习决策函数y=f(x)，要么学习条件概率分布p(y|x)。这里就是需要在给定x的情况下，p(y|x)的分布是满足熵最大的。H(Y|X)最大，那么互信息I(X;Y)最小，表示X,Y之间相互透露的信息量最少，也就是让X,Y之间额外的假设最少。