机器学习day04—— logistic regression逻辑回归、决策边界

最新推荐文章于 2024-04-24 15:19:39 发布

NFY-ting

最新推荐文章于 2024-04-24 15:19:39 发布

阅读量251

点赞数

分类专栏：机器学习文章标签：机器学习深度学习人工智能

本文链接：https://blog.csdn.net/weixin_44419845/article/details/120312345

版权

机器学习专栏收录该内容

16 篇文章 1 订阅

订阅专栏

分类

分类的应用：垃圾邮件分类、良恶性肿瘤的判断等，只有是否两个选项，即只包含0、1两类的分类问题。
通常不把线性回归应用到分类问题中。线性回归中的假设函数取值会<0 or >1，而分类问题只有0，1。

logistic回归

特点：算法输出值或者说预测值一直介于0和1之间。
被视为一种分类算法。
模型：
假设： logistic 回归的假设函数
其中： 𝑋 代表特征向量 𝑔 代表逻辑函数（logistic function)是一个常用的逻辑函数为 S 形函数（Sigmoid function），公式为：

用参数𝜃拟合我们的训练集，所以我们面对训练集要选定一个值𝜃来拟合数据，用来预测。
ℎ𝜃(𝑥)的输出值的意义是：对于给定的输入变量，根据选择的参数(x和𝜃)计算输出变量（y）=1 的可能性（estimated probablity）即ℎ𝜃(𝑥) = 𝑃(𝑦 = 1|𝑥; 𝜃)。
例如，如果对于给定的𝑥，通过已经确定的参数计算得出ℎ𝜃(𝑥) = 0.7，则表示有 70%的几率𝑦为正向类，相应地𝑦为负向类的几率为 1-0.7=0.3。
logistic回归函数的图像
上端无线趋近于1，下端无限趋近于0。
预测规则：
当ℎ𝜃(𝑥) >= 0.5时，即𝜃𝑇𝑥 >= 0 时，预测 𝑦 = 1
当ℎ𝜃(𝑥) < 0.5时，即𝜃𝑇𝑥 < 0 时，预测 𝑦 = 0 。

例如：
现在假设我们有一个模型：

参数𝜃是向量[-3 1 1]。所以ℎ𝜃(𝑥)=-3+x₁+x₂>=0，即x₁+x₂>=3，模型将预测y=1。
决策边界x₁+x₂=3
注意：决策边界是假设函数的属性，不是数据集的属性，与数据集无关，只和函数参数𝜃有关。
如果数据集不规整：

可以在特征中添加额外的高阶多项式。ℎ𝜃(𝑥) = 𝑔(𝜃₀ + 𝜃₁𝑥₁ + 𝜃₂𝑥₂ + 𝜃₃𝑥₁² + 𝜃4𝑥₂² )，参数𝜃是向量[[-1 0 0 1 1]。
当ℎ𝜃(𝑥)>=0，则-1+𝑥₁²+𝑥₂²>=0 =====> 𝑥₁²+𝑥₂²>=1，所以决策边界为𝑥₁²+𝑥₂²=1。

通过在特征中增加复杂的多项式，得到复杂的决策边界，来适应复杂形状的模型。

如何求得假设函数的参数𝜃——代价函数

对于线性回归模型，我们定义的代价函数是所有模型误差的平方和
。理论上来说，我们也可以对逻辑回归模型沿用这个定义，但是问题在于，当我们将带入到这样定义了的代价函数中时，我们得到的代价函数将是一个非凸函数（non-convexfunction），即函数具有很多局部最小值，这样会影响我们使用梯度下降法寻找全局最小值。
所以我们使用其他的方式定义代价函数。
我们重新定义逻辑回归的代价函数为： logistic 回归的代价函数
其中， cost函数，由于ℎ𝜃(𝑥) 的范围是[0,1]，所以ℎ𝜃(𝑥)与 𝐶𝑜𝑠𝑡(ℎ𝜃(𝑥), 𝑦)之间的关系： if y = 1
解析：当ℎ𝜃(𝑥)=0时，在y = 1的预测中，代价函数趋于无穷，我们预测y=1，但如果y的实际结果时0，那么我们将用无穷大的代价来惩罚此算法；当ℎ𝜃(𝑥)=1时，在y = 1的预测中，代价函数等于0，预测值与实际值都为1，那么带价值为0。
相反：
if y = 0
解析：在y = 1的预测中，当ℎ𝜃(𝑥)=0时，代价函数等于0，预测值与实际值都为0，那么带价值为0；当ℎ𝜃(𝑥)=1时，代价函数趋于无穷，我们预测y=0，但如果y的实际结果时1，那么我们将用无穷大的代价来惩罚此算法。