逻辑回归分类算法

laufing

已于 2024-06-01 22:59:18 修改

阅读量718

点赞数 17

分类专栏：机器学习算法学习文章标签：逻辑回归分类算法

于 2024-06-01 10:37:52 首次发布

本文链接：https://blog.csdn.net/weixin_45228198/article/details/139362854

版权

机器学习算法学习专栏收录该内容

29 篇文章 0 订阅

订阅专栏

文章目录

算法推导
手动实现逻辑回顾
sklearn的逻辑回归

线性回归解决连续值的回归预测；而逻辑回归解决离散值的分类预测；

算法推导

逻辑回归可以看作是两部分，以0、1分类问题说明；

线性回归部分
- 对于一个样本 $x_i$ ，有n个特征 $x_i^{(1)}$ 、 $x_i^{(2)}$ … $x_i^{(n)}$ ，每个特征有对应的权重 $\theta_{(j)}$ ，则该样本所有特征的线性加权求和为: $h_{\theta}(x_i) =\sum_j^n\theta_jx_i^{(j)} + \theta_0x_i^{(0)}=>\theta^Tx_i ; 其中x_i^{(0)}=1$
  $\theta为权重列向量，x_i为第i个样本的列向量$
逻辑函数部分
- 回归拟合的值 $h_{\theta}(x_i)$ 是一个连续值，需要转为 $[0, 1]$ 之间的概率；
- 逻辑函数 $\frac {1} {1+e^{-x}}$ 将 $h_{\theta}(x_i)$ 连续值经过该逻辑函数映射到0-1之间
由以上两部分，可以得到逻辑回归的预测函数： $y_{pred}(x_i) = \frac {1} {1+e^{-\theta^Tx_i}}$ 这里的预测值在 $0 - 1$ 之间，可以表示样本 $x_i$ 属于某类别的概率；
概率的似然函数 $\prod_{i=1}^my_{pred}^{y_{true}}(1-y_{pred})^{(1-y_{true})}$ 尽量让属于某类的概率最大，即极大似然估计求解；两边取对数，并乘以-1，得到损失函数： $-\sum_{i=1}^m(y_{true}log(y_{pred}) + (1-y_{true})log(1-y_{pred}))$ 求该损失函数的最小值。
梯度下降法，优化损失函数，得到权重更新公式： $\theta_j = \theta_j - \alpha\sum_{i=1}^m(\hat y_i - y_i)x_i^{j}$
表示为矩阵形式： $\theta = \theta - \alpha X^T(\hat Y - Y)$

手动实现逻辑回顾

pass

sklearn的逻辑回归

基于breast_cancer 数据集训练分类模型
绘制混淆矩阵


import numpy as np
import pandas as pd
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, balanced_accuracy_score, precision_score, recall_score, f1_score, confusion_matrix


data = load_breast_cancer()
# 获取数据、标签
x, y = data.data, data.target
print("data:", x.shape)
print("label:", y.shape)

# 数据分割
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.2, random_state=0)

# 训练
lg_model = LogisticRegression(penalty='l2')
lg_model.fit(x_train, y_train)
print("训练集准确率:", balanced_accuracy_score(y_train, lg_model.predict(x_train)))
print("测试集准确率:", balanced_accuracy_score(y_test, lg_model.predict(x_test)))

from matplotlib import pyplot as plt

# 混淆矩阵
y_pred = lg_model.predict(x_test)
cm = confusion_matrix(y_test, y_pred)
plt.imshow(cm, cmap="gray")
plt.colorbar()
plt.show()