Logistic Regression(逻辑回归原理)

Logistic Regression step

我们用逻辑回归的方式直接找出w和b
在这里插入图片描述激活函数σ(z)在0~1之间,以0.5为分界线,可以很好的解决二分类问题。
在这里插入图片描述如上图,激活函数是怎么来的?由我之前的classification:probabilistic generative model这篇博客中可推出来σ(z)=P(C1|x),那么我直接找w,b,这个概率不就出来了吗?
在这里插入图片描述

在这里插入图片描述我们要怎么找出最好的w和b?如上图,假设训练集有N个样本,且只属于class1或class2。我们将这些样本都带进σ(z),然后将求class1的概率的乘积,注意,第三项是给的class2,所以我要用1减去class2的概率才能得到class1的概率。我们穷尽所有w,b,然后选取使L(w,b)最大的w和b

在这里插入图片描述
如果直接求最大L(w,b),那么求导太麻烦了,我们转换一下思想,如上图,将其转化为求-lnL(w,b)的最小值,因为ln可以打开成加法,求导很方便。于是就有了上图的转化过程。我们可以看到,每一部分都是一样的形式,只是有些的因子是0被约掉了而已,具体请看下图:两个伯努利分布的交叉熵(大概知道有这回事就行了)
在这里插入图片描述
在这里插入图片描述现在,我们来求这个-lnL(w,b)的最小值:
在这里插入图片描述
在这里插入图片描述如下图,求完一阶导之后的最终化简结果,然后我们对其进行梯度下降,找到w
在这里插入图片描述

why not to use square error?

为什么逻辑回归不使用线性回归的error的平方来作为损失函数?
如下图推理,如果使用了error的平方,那么当y的实际值是1时,而预测的值也是1,那么损失为0,说明接近目标,但是当预测的值为0时,损失仍然为0,折就不对了!!!
在这里插入图片描述
在这里插入图片描述我们来看看逻辑回归使用交叉熵和使用平方误差的不同,我们可以看到使用交叉熵时,离最低点越远的点倾斜度愈大,梯度下降的越快,这是恰当的,而使用square error时,距离最低点很远的点下降的很慢。
在这里插入图片描述
在这里插入图片描述如下图,我们可以看到逻辑回归和线性回归的梯度下降的式子一样。
在这里插入图片描述

Discriminative v.s. Generative

discriminative是直接找w,b,而generative是要先找μ1,μ2等参数然后才能计算出w和b,所以用这两种方式找出来的w和b不一样。
在这里插入图片描述在这里插入图片描述

在这里插入图片描述下面来看一个例子:第一个向量人类来看直接就会分为class1,而利用朴素贝叶斯结果又如何?
在这里插入图片描述
在这里插入图片描述我们发现,用朴素贝叶斯得出来的结论是小于0.5,也就是它被归为了class2.
在这里插入图片描述通常情况下discrimination会更好,因为他是使用我确实有的有限样本去预测的。那么generative就一定不好吗?当然不是!!
Generative对可能的分布进行假设,所需要的训练数据更少,然后对垃圾样本的影响不敏感。回想一下之前预测的那只龟,他并不在我的有限训练数据里,难道我就直接断定p(x|C)等于0了吗?肯定不是,因为我的样本是有限的,可能仅仅是我的水属性样本里面确实没有这只宝可梦,但是不代表在无限样本的水属性宝可梦里没有这只,我们需要用高斯分布那个概率公式去计算。
在这里插入图片描述
在这里插入图片描述在这里插入图片描述上图的以往经验就可以看成是高斯分布的那个概率公式。

Multi-class classification

多分类的问题我们采取下图的方法,比如有三个分类,当传入一个x时,经过下图的步骤,将这个x的结果分别映射到三个0~1的数上,然后比较一下这三个数,谁更大就是哪一类。
在这里插入图片描述
在这里插入图片描述

limitation of logistic regression

如下图这种情况,我无法找到一条线将其区分。
在这里插入图片描述这时,我们可以用某种方法将这四个点的位置转换一下就可以了。但是转化不总是容易的,我们不能花太多的时间在转化这个上面。
在这里插入图片描述其中一个比较好的方法就是级联逻辑回归,也就是将几个逻辑回归拼起来。将每个点的x1和x2用逻辑回归都转换成新的x1和x2,然后将新的再次使用逻辑回归得出结果
在这里插入图片描述结果如下:
在这里插入图片描述再将新的x1和x2作为input传入,然后输出最终结果

在这里插入图片描述若干个逻辑回归级联就是深度学习!!
在这里插入图片描述

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: Logistic回归是一种逻辑回归方法。它是一种特殊的回归方法,用于对于分类问题中的因变量建立预测模型。这种方法基于学习一个由输入变量到二元输出变量的条件概率来构建预测模型,用于对一个新的样本进行分类。它对于分类问题中的因变量建立预测模型非常有效。 ### 回答2: 逻辑回归是一种用于解决二分类问题的监督学习算法。它是一种基于概率统计的分类模型,可以用于预测分类结果。逻辑回归的输出结果是一个0到1之间的概率值,其含义是该样本属于某一类别的概率。 逻辑回归模型的基本假设是数据服从伯努利分布,也就是数据只有两种可能的取值,被称为正类和负类。对于给定的训练数据集,逻辑回归模型的目标是最大化似然函数,即最大化样本属于正类(或负类)的概率。利用最大似然估计方法,我们可以求解出逻辑回归模型的参数。在实际应用中,我们通常使用梯度下降等优化算法来求解模型参数。 逻辑回归模型有多种变体,如L1正则化逻辑回归、L2正则化逻辑回归、多项式逻辑回归等。其中,L1正则化逻辑回归可以实现特征选择,可以削减一些不重要的特征,从而简化模型,提高计算速度和模型的泛化能力。 在机器学习领域,逻辑回归是一个常用的模型。它广泛应用于各种领域,如网络广告点击率预测、信用风险评估、医疗诊断等。逻辑回归模型简单易实现,具有较高的解释性,是一个较为理想的分类算法。 ### 回答3: 逻辑回归Logistic Regression)是一种经典的分类算法,在机器学习和统计学领域中得到广泛的应用。它旨在从已有的数据中构建一个能够预测类别的模型,输出结果为概率值,可以用于二分类或多分类问题的解决。 逻辑回归的基本原理是利用一个特定的函数对输入特征进行线性组合,然后将结果输入到一个Sigmoid函数中进行映射,将结果值压缩到0到1的范围内,表示输入属于某一类别的概率。这个Sigmoid函数可以被看作是一个阀门,控制着数据流向最终输出。它将具有很强预测能力的线性组合函数输出转化为概率输出的过程,将出现在中间层的结果值映射到[0,1]范围内,以表达某个样本属于某个类别的概率。 在训练模型时,逻辑回归使用的是最大似然估计的方法来确定模型的参数。在分类训练数据时,需要对样本经过一系列的处理,例如特征提取、特征转换、数据归一化等步骤。训练数据可以通过梯度下降法、牛顿迭代法等优化方法来确定最佳参数。通过此训练过程,模型可以学习到输入特征与输出概率之间的映射关系。 逻辑回归的优点包括了功能简单、速度快、易于实现和修改等等。它是机器学习中最为基本的分类算法之一,在数据挖掘、信用评估、自然语言处理、广告推荐等领域都有广泛的应用。逻辑回归作为一个二分类算法,常被用于解决分类问题。然而,在实际业务中,如何选择不同的逻辑回归模型及参数,对算法的效果和优化有着重要的影响。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值