机器学习之逻辑回归

最新推荐文章于 2024-05-28 17:15:54 发布

愿我如星｜君如月

最新推荐文章于 2024-05-28 17:15:54 发布

阅读量2.6k

点赞数

分类专栏：机器学习文章标签：机器学习逻辑回归 python

本文链接：https://blog.csdn.net/weixin_51202563/article/details/124133460

版权

机器学习专栏收录该内容

3 篇文章 0 订阅

订阅专栏

1.什么是逻辑回归？

逻辑回归是是一种用于解决二分类（0 or 1）问题的机器学习方法，用于估计某种事物的可能性。比如某用户购买某商品的可能性，某病人患有某种疾病的可能性，以及某广告被用户点击的可能性等。

2.Sigmoid函数

Sigmoid函数也称为逻辑函数，其函数表达式如下：

$g\left ( z \right )=\frac{1}{1+e^{^{-z}}}$

其函数曲线如下：

Sigmoid函数的取值在[0,1]之间，也就是说可以将其看成一个概率值，我们可以自己设置一个阈值，将超过该阈值的定为1，低于该阈值的定为0。因此Sigmoid函数所具有的特性对于解决二分类问题十分重要。

3.逻辑回归一般表达式

线性回归的表达式为：

$y=wx+b$

我们将线性回归的输出作为Sigmoid函数的输入，就会得到逻辑回归的一般表达式如下：

$P\left ( w,b \right )=\frac{1}{1+e^{wx+b}}$

其中，输出的值可以看作是一个概率值或者跟设定的阈值相比较，最后得到分类结果。

二项逻辑斯谛回归模型是满足如下的条件概率分布：

$P\left ( Y=1|x \right )=\frac{exp\left ( wx+b \right )}{1+exp\left ( wx+b \right )}$

$P\left ( Y=0|x \right )=\frac{1}{1+exp\left ( wx+b \right )}$

4.损失函数

逻辑回归的损失函数是对数似然函数（log loss），函数表达式如下：

$L\left ( P,y \right )=\begin{cases} -log\left ( P \right ) & \text{ if } y=1 \\ -log\left ( 1-P \right )& \text{ if } y= 0 \end{cases}$

其中，y=1/0表示的是真实值为1/0时用的公式。

5.逻辑回归的优点以及应用

优点：

逻辑回归以概率的形式输出，并非只是0，1判定。
逻辑回归的可解释性强。
训练速度快，进行特征工程之后效果好。

应用：CRT预估/推荐系统各种分类场景，比如某搜索引擎厂的广告CTR预估，某电商搜索排序/广告CRT预估等等。

6.优化算法

一阶：梯度下降，随机梯度下降，mini随机梯度下降
二阶：牛顿法、拟牛顿法

7.代码

import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score
from sklearn.metrics import recall_score,precision_score,f1_score
from sklearn.metrics import confusion_matrix
import matplotlib.pyplot as plt

data = pd.read_csv('KaggleCredit2.csv')

data.dropna(inplace=True)#去掉值为空的数据

y = data['SeriousDlqin2yrs']
x = data.drop('SeriousDlqin2yrs',axis=1)

x_train,x_test,y_train,y_test = train_test_split(x,y,test_size=0.2,random_state=8)

LR = LogisticRegression()#默认参数，可以适当调参
LR.fit(x_train,y_train)
score = LR.score(x_train,y_train)
print(score)

y_pred = LR.predict(x_test)
test_score = accuracy_score(y_test,y_pred)
print("测试集准确率：",test_score)

test_recall = recall_score(y_test,y_pred,average='weighted')
test_precision = precision_score(y_test,y_pred,average='micro')
test_f1 = f1_score(y_test,y_pred,average='weighted')
print("测试集召回率：",test_recall)
print("测试集精确率：",test_precision)
print("测试集F1分数：",test_f1)