《统计学习方法》算法学习笔记五 之 逻辑斯谛回归与最大熵模型

本文详细介绍了逻辑斯谛回归与最大熵模型,包括逻辑斯谛分布、二项逻辑斯谛回归模型及其参数估计,以及最大熵模型的学习过程,涉及到最大熵原理和模型的最优化算法。逻辑斯谛回归模型适用于分类问题,最大熵模型通过熵最大化的准则选择最佳模型,两者的学习通常涉及最大似然估计和最优化方法如梯度下降或拟牛顿法。
摘要由CSDN通过智能技术生成

逻辑斯谛回归与最大熵模型

总述

逻辑斯谛回归是统计学习中的经典分类方法。最大熵是概率模型学习的一个准则,将其推广到分类问题得到最大熵模型。逻辑斯谛回归与最大熵模型都属于对数模型

逻辑斯谛回归模型

1.1 逻辑斯谛分布

逻辑斯谛分布:设 X X X是连续随机变量, X X X服从逻辑斯谛分布是指 X X X具有下列分布函数和密度函数:
在这里插入图片描述
式中, μ \mu μ为未知参数, σ > 0 \sigma>0 σ>0为形状参数。

在这里插入图片描述
分布函数在中心附近增长速度较快,在两端增长速度较慢。形状参数 σ \sigma σ的值越小,曲线在中心附近增长越快。

1.2 二项逻辑斯谛回归模型

二项逻辑斯谛回归模型是一种分类模型,由条件概率分布 p ( Y ∣ X ) p(Y|X) p(YX)表示,形式为参数化的逻辑斯谛分布。这里,随机变量 X X X取为实数,随机变量 Y Y Y取为0或1,通过监督学习的方法来估计模型参数。
逻辑斯谛回归模型:二项逻辑斯谛回归模型是如下的条件概率分布:
在这里插入图片描述
逻辑斯谛回归比较两个条件概率值的大小,将实例 x x x分到概率值较大的一类。
从事件几率的角度看(几率指该事件发生的概率与不发生的概率的比值),如果事件发生的概率是 p p p,那么该事件的几率是 p / ( 1 − p ) p/(1-p) p/(1p),该事件的对数几率或logit函数是:
l o g i t ( p ) = l o g ( p / ( 1 − p ) ) logit(p)=log(p/(1-p)) logit(p)=log(p/(1p))对逻辑斯谛回归而言,有
在这里插入图片描述
由此可见,在逻辑斯谛回归模型中,输出 Y = 1 Y=1 Y=1的对数几率是输入 x x x的线性函数。
从分类角度看,考虑对输入 x x x进行分类的线性函数 w ∗ x w*x wx,其值域为实数域,这里 x ∈ R n + 1 , w 属 于 R n + 1 x∈R^n+1,w属于R^n+1 xRn+1,wRn+1。通过逻辑斯谛回归模型定义式可以将线性函数 w ∗ x w*x wx转化为概率:
在这里插入图片描述
线性函数的值越接近正无穷,概率值越接近1;线性值越接近负无穷,概率值越接近0。

1.3 模型参数估计

逻辑斯谛回归模型学习时,对于给定的训练数据集
T = T= T={ ( x 1 , y 1 ) , ( x 2 , y 2 ) , . . . , ( x n , y n ) , (x_1,y_1), (x_2,y_2),..., (x_n,y_n), (x1,y1),(x2,y2),...,(xn,yn),}
其中, x i 属 于 R n , y i ∈ x_i属于R^n, y_i∈ xiRn,yi{0,1}。可以应用极大似然估计法训练估计模型参数,从而得到逻辑斯谛回归模型。
设: p ( Y = 1 ∣ x ) = π ( x ) p(Y=1|x)=π(x) p(Y=1x)=π(x) p ( Y = 0 x ) = 1 − π ( x ) p(Y=0x)=1-π(x) p(Y=0x)=1π(x)
似然函数为
在这里插入图片描述
对数似然函数为
在这里插入图片描述
L ( w ) L(w) L(w)求极大值,得到 w w w的估计值。问题变成了以对数似然函数为目标函数的最优化问题,通常采用梯度下降或拟牛顿法求解。

1.4 多项逻辑斯谛回归

假设离散型随机变量 Y Y Y的取值集合为{ 1 , 2 , . . . , K 1,2,...,K 1,2,...,K},则多项逻辑斯谛回归模型是
在这里插入图片描述

2 最大熵模型

2.1 最大熵原理

最大熵原理是概率模型学习的一个准则。最大熵原理认为,学习概率模型时,在所有可能的概率模型(分布)中,熵最大的模型是最好的模型。最大熵原理也可以表述为在满足约束条件的模型集合中选取熵最大的模型。
假设离散随机变量 X X X的概率分布是 p ( X ) p(X) p(X),则其熵是
在这里插入图片描述熵满足下列不等式
0 ≤ H ( p ) ≤ l o g ( x ) 0≤H(p)≤log(x) 0H(p)log(x)
式中, ∣ X ∣ |X| X X X X的取值个数,当且仅当 X X X的分布是均匀分布时右边的等号成立。即当 X X X服从均匀分布时,熵最大。
在没有更多信息的情况下,那些不确定的部分都是“等可能的”,最大熵原理通过熵的最大化表示等可能性。

2.2 最大熵模型的定义

假设分类模型是一个条件概率分布 p ( Y ∣ X ) p(Y|X) p(YX),给定一个训

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值