最大似然用于线性回归的公式推导

高斯分布定义

假设随机变量X服从高斯分布,记作 X ∼ N ( μ , σ 2 ) X\sim N(\mu, \sigma^2) XN(μ,σ2)。概率密度函数为:
f ( x ) = 1 2 π σ 2 e − ( x − μ ) 2 2 σ 2 f(x) = \frac {1} {\sqrt{2\pi \sigma^2}}e^{- \frac{(x-\mu)^2}{2\sigma^2}} f(x)=2πσ2 1e2σ2(xμ)2

用最大释然推导得到线性回归均方误差

为了得到之前推导出的相同的线性回归算法,定义 p ( y ∣ x ) = N ( y ; y ∙ ( x ; w ) , σ 2 ) p(y|x)=N(y;y^{\bullet}(x;w),\sigma^2) p(yx)=N(y;y(x;w),σ2)。函数 y ∙ ( x ; w ) y^{\bullet}(x;w) y(x;w)预测高斯的均值。
θ M L = a r g m a x θ ∑ i = 1 m l o g p ( y ( i ) ∣ x ( i ) ; θ ) \theta_{ML} = arg max_{\theta} \sum_{i=1}^{m}logp(y^{(i)}|x^{(i)};\theta) θML=argmaxθi=1mlogp(y(i)x(i);θ)
上式中:
∑ i = 1 m l o g p ( y ( i ) ∣ x ( i ) ; θ ) = ∑ i = 1 m l o g 1 2 π σ 2 e − [ y ( i ) − y ∙ ( i ) ] 2 2 σ 2 \sum_{i=1}^{m} logp(y^{(i)}|x^{(i)};\theta) = \sum_{i=1}^{m} log\frac {1} {\sqrt{2\pi \sigma^2}} e^{- \frac{ [y^{(i)}-y^{\bullet(i)}]^2 } {2\sigma^2}} i=1mlogp(y(i)x(i);θ)=i=1mlog2πσ2 1e2σ2[y(i)y(i)]2

= ∑ i = 1 m l o g 1 2 π σ 2 + ∑ i = 1 m − [ y ( i ) − y ∙ ( i ) ] 2 2 σ 2 =\sum_{i=1}^{m} log\frac {1} {\sqrt{2\pi \sigma^2}}+ \sum_{i=1}^{m}-\frac{[y^{(i)}-y^{\bullet(i)}]^2 } {2\sigma^2 } =i=1mlog2πσ2 1+i=1m2σ2[y(i)y(i)]2

= − ∑ i = 1 m l o g 2 π σ 2 − ∑ i = 1 m ∣ ∣ y ( i ) − y ∙ ( i ) ∣ ∣ 2 2 π σ 2 =-\sum_{i=1}^{m} log\sqrt{2\pi\sigma^2} -\sum_{i=1}^{m} \frac{||y^{(i)}-y^{\bullet(i)}||^2} {2\pi\sigma^2} =i=1mlog2πσ2 i=1m2πσ2y(i)y(i)2

= − m l o g σ − m 2 l o g ( 2 π ) − ∑ i = 1 m ∣ ∣ y ( i ) − y ∙ ( i ) ∣ ∣ 2 2 π σ 2 =-mlog\sigma-\frac{m}{2}log(2\pi)-\sum_{i=1}^{m} \frac{||y^{(i)}-y^{\bullet(i)}||^2} {2\pi\sigma^2} =mlogσ2mlog(2π)i=1m2πσ2y(i)y(i)2

由上式可知最大化 ∑ i = 1 m l o g p ( y ( i ) ∣ x ( i ) ; θ ) \sum_{i=1}^{m}logp(y^{(i)}|x^{(i)};\theta) i=1mlogp(y(i)x(i);θ)等价于最小化 ∑ i = 1 m ∣ ∣ y ( i ) − y ∙ ( i ) ∣ ∣ 2 2 π σ 2 \sum_{i=1}^{m} \frac{||y^{(i)}-y^{\bullet(i)}||^2}{2\pi\sigma^2} i=1m2πσ2y(i)y(i)2。而
M S E t r a i n = ∑ i = 1 m ∣ ∣ y ( i ) − y ∙ ( i ) ∣ ∣ 2 2 π σ 2 MSE_{train} = \sum_{i=1}^{m} \frac{||y^{(i)}-y^{\bullet(i)}||^2}{2\pi\sigma^2} MSEtrain=i=1m2πσ2y(i)y(i)2
由此便由最大似然推出了线性回归的最小均方误差。

多项式逻辑回归是逻辑回归的一种扩展,它允许非线性关系建模。公式推导过程如下: 假设我们有一个二分类问题,输入特征为 x,输出为 y,我们想要建立一个多项式逻辑回归模型。 1. 首先,我们假设存在一个函数 h(x),该函数可以将输入特征 x 映射到一个连续的实数域上。这个函数 h(x) 通常被称为决策函数或者假设函数。 2. 定义 sigmoid 函数 g(z) = 1 / (1 + e^(-z)),其中 z 是一个实数。sigmoid 函数的值域在 (0, 1) 之间。 3. 对于二分类问题,我们可以将输出 y 理解为在类别 1 的概率,即 P(y = 1 | x)。因此,我们可以将决策函数 h(x) 的输出通过 sigmoid 函数进行映射,得到 P(y = 1 | x)。 4. 假设我们想要建立一个 k 阶的多项式逻辑回归模型,我们可以将输入特征 x 按照多项式的形式进行扩展。例如,当 k = 2 时,我们可以构造出以下特征组合:[1, x, x^2]。 5. 假设我们有 m 组训练样本,每个样本的特征表示为 x^(i) = [1, x^(i), (x^(i))^2, ..., (x^(i))^k],其中 i 表示第 i 组训练样本。 6. 我们可以通过最大似然估计来求解模型参数。假设我们的训练集标签为 y^(i),我们可以定义似然函数 L(θ) = ∏(i=1->m) P(y^(i) | x^(i); θ),其中 θ 表示模型的参数。 7. 对于二分类问题,似然函数可以写成 L(θ) = ∏(i=1->m) (g(θ^T * x^(i)))^(y^(i)) * (1 - g(θ^T * x^(i)))^(1 - y^(i))。 8. 我们的目标是最大化似然函数,即求解使得 L(θ) 最大化的参数 θ。通常我们会使用梯度下降等优化算法来求解最优参数。 以上就是多项式逻辑回归公式推导的基本过程。通过将输入特征进行多项式扩展,我们可以更灵活地建模非线性关系。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值