只考虑二阶特征的情况下，对one-hot编码后的数据通过逻辑回归实现二分类

天堂树4711

已于 2024-09-05 16:43:42 修改

阅读量389

点赞数 5

分类专栏：机器学习文章标签：逻辑回归分类算法

于 2024-09-05 15:13:28 首次发布

本文链接：https://blog.csdn.net/weixin_52147110/article/details/141931655

版权

机器学习专栏收录该内容

1 篇文章 0 订阅

订阅专栏

假设有5个样本（样本数为n），一阶特征有2个，性别和爱好，其中性别特征有男女2种，爱好有4种，那么二阶特征有8种（2*4），那么训练数据X的维度应该是5*8。

性别独热编码：

男: [1, 0]
女: [0, 1]

兴趣独热编码：

体育: [1, 0, 0, 0]
购物: [0, 1, 0, 0]
科技: [0, 0, 1, 0]
旅游: [0, 0, 0, 1]

权重向量β的维度应该是β = np.zeros(X.shape[1])=8，也就是说权重的维度应该与特征数量相等。

在逻辑回归中，拟合函数是sigmoid函数，sigmoid(β.x) = β1*x1+β2*x2+...+β8*x8，向量长度是5。

接下来，与线性拟合类似，进行参数估计与损失值计算，不同的是线性模型是采用最小二乘估计，而逻辑回归模型是采用最大似然估计，即分类正确的概率最大的情况下，求解参数，似然函数是一个关于参数的函数。

对于这个二分类任务，y的取值只有0和1两种，当σ≥0.5，y_pred=1，否则y_pred=0.

这里补充最大似然估计MLE的计算公式为样本的联合概率函数。

对于离散概率函数来说，就是将每一种事件发生的概率p取幂累乘，其中幂指数是该事件发生时的真实值。

所以该二分类任务中的似然函数如下：

接下来就是通过求导估计参数和计算损失函数，值得一提的是，在线性模型中，损失函数是残差平方和SSE，而逻辑回归模型中这不是一个凸函数，容易陷入局部最优，因此采用对数损失函数。逻辑回归模型中的对数损失函数就是似然函数取对数，累乘变累加，再求平均加负号。因为log内的部分sigmoid是在0-1之间，取对数为负数，因此加负号也是为了使损失函数为正，同时似然函数最大时，损失函数最小。

求解出偏导数，偏导数组成的向量就是梯度向量，就可以进行梯度下降求解β = β - α*dβ。本例中β是一个长度为8的向量。

import numpy as np

# Training data
X = np.array([
    [1, 0, 0, 0, 0, 0, 0, 0],
    [0, 0, 0, 0, 0, 1, 0, 0],
    [0, 0, 1, 0, 0, 0, 0, 0],
    [0, 0, 0, 0, 0, 0, 0, 1],
    [0, 1, 0, 0, 0, 0, 0, 0]
])
y = np.array([0, 1, 1, 0, 1])

# Initialize weights and bias
w = np.zeros(X.shape[1])
b = 0

# 定义sigmoid函数和损失函数
def sigmoid(z):
    return 1 / (1 + np.exp(-z))

def cross_entropy_loss(y_true, y_pred):
    return -np.mean(y_true * np.log(y_pred) + (1 - y_true) * np.log(1 - y_pred))


# 定义梯度下降算法
def gradient_descent(X, y, w, b, alpha, num_iterations):
    for i in range(num_iterations):
        # 前向传播
        z = np.dot(X, w) + b
        y_pred = sigmoid(z)

        # 计算损失
        loss = cross_entropy_loss(y, y_pred)

        # 反向传播
        error = y_pred - y
        dW = np.dot(X.T, error) / len(y)
        db = np.sum(error) / len(y)

        # 更新权重和偏置
        w -= alpha * dW
        b -= alpha * db

        # 每隔一定迭代次数打印损失
        if i % 1000 == 0:
            print(f"Iteration {i}, Loss: {loss}")
            print(w)

    return w, b

# 训练模型
alpha = 0.01  # 学习率
num_iterations = 10000  # 迭代次数
w, b = gradient_descent(X, y, w, b, alpha, num_iterations)

# 预测
X_predict = np.array([
    [1, 0, 0, 0, 0, 0, 0, 0],
    [0, 0, 0, 0, 0, 1, 0, 0],
])
def predict(X, w, b):
    z = np.dot(X, w) + b
    y_pred = sigmoid(z)
    y_pred_class = [1 if i > 0.5 else 0 for i in y_pred]
    return y_pred_class

y_pred = predict(X_predict, w, b)
print("Predictions:", y_pred)

参考用人话讲明白逻辑回归Logistic regression - 知乎 (zhihu.com)

天堂树4711

关注

5
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
只考虑二阶特征的情况下，对one-hot编码后的数据通过逻辑回归实现二分类

接下来，与线性拟合类似，进行参数估计与损失值计算，不同的是线性模型是采用最小二乘估计，而逻辑回归模型是采用最大似然估计，即分类正确的概率最大的情况下，求解参数，似然函数是一个关于参数的函数。假设有5个样本（样本数为n），一阶特征有2个，性别和爱好，其中性别特征有男女2种，爱好有4种，那么二阶特征有8种（2*4），那么训练数据X的维度应该是5*8。对于这个二分类任务，y的取值只有0和1两种，p(y=1)=sigmoid(w.x)，p(y=0)=1-p(y=1)，，其中幂指数是该事件发生时的真实值。
复制链接

扫一扫

专栏目录