1.什么是逻辑回归?
逻辑回归是是一种用于解决二分类(0 or 1)问题的机器学习方法,用于估计某种事物的可能性。比如某用户购买某商品的可能性,某病人患有某种疾病的可能性,以及某广告被用户点击的可能性等。
2.Sigmoid函数
Sigmoid函数也称为逻辑函数,其函数表达式如下:
其函数曲线如下:
Sigmoid函数的取值在[0,1]之间,也就是说可以将其看成一个概率值,我们可以自己设置一个阈值,将超过该阈值的定为1,低于该阈值的定为0。因此Sigmoid函数所具有的特性对于解决二分类问题十分重要。
3.逻辑回归一般表达式
线性回归的表达式为:
我们将线性回归的输出作为Sigmoid函数的输入,就会得到逻辑回归的一般表达式如下:
其中,输出的值可以看作是一个概率值或者跟设定的阈值相比较,最后得到分类结果。
二项逻辑斯谛回归模型是满足如下的条件概率分布:
4.损失函数
逻辑回归的损失函数是对数似然函数(log loss),函数表达式如下:
其中,y=1/0表示的是真实值为1/0时用的公式。
5.逻辑回归的优点以及应用
优点:
- 逻辑回归以概率的形式输出,并非只是0,1判定。
- 逻辑回归的可解释性强。
- 训练速度快,进行特征工程之后效果好。
应用:CRT预估/推荐系统各种分类场景,比如某搜索引擎厂的广告CTR预估,某电商搜索排序/广告CRT预估等等。
6.优化算法
- 一阶:梯度下降,随机梯度下降,mini随机梯度下降
- 二阶:牛顿法、拟牛顿法
7.代码
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score
from sklearn.metrics import recall_score,precision_score,f1_score
from sklearn.metrics import confusion_matrix
import matplotlib.pyplot as plt
data = pd.read_csv('KaggleCredit2.csv')
data.dropna(inplace=True)#去掉值为空的数据
y = data['SeriousDlqin2yrs']
x = data.drop('SeriousDlqin2yrs',axis=1)
x_train,x_test,y_train,y_test = train_test_split(x,y,test_size=0.2,random_state=8)
LR = LogisticRegression()#默认参数,可以适当调参
LR.fit(x_train,y_train)
score = LR.score(x_train,y_train)
print(score)
y_pred = LR.predict(x_test)
test_score = accuracy_score(y_test,y_pred)
print("测试集准确率:",test_score)
test_recall = recall_score(y_test,y_pred,average='weighted')
test_precision = precision_score(y_test,y_pred,average='micro')
test_f1 = f1_score(y_test,y_pred,average='weighted')
print("测试集召回率:",test_recall)
print("测试集精确率:",test_precision)
print("测试集F1分数:",test_f1)