引言
逻辑回归是一种用于二分类问题的机器学习算法。尽管它的名字中有“回归”,但它实际上是用于分类的。在本文中,我们将通过模拟数据来演示逻辑回归模型的实现。
逻辑回归简介
逻辑回归通过使用逻辑函数(通常是Sigmoid函数)将线性回归的输出映射到0和1之间,从而预测二元结果的概率。
模拟数据
我们将模拟一些二维数据,其中特征和标签是随机生成的。
安装必要的库
pip install numpy scikit-learn matplotlib
模拟数据和模型实现
import numpy as np
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
import matplotlib.pyplot as plt
# 设置随机种子以确保结果可复现
np.random.seed(0)
# 模拟数据:100个样本,每个样本2个特征
n_samples = 100
X = np.random.randn(n_samples, 2) # 特征
true_prob = 1 / (1 + np.exp(-(X[:, 0] + X[:, 1]))) # 真实概率
# 添加噪声到真实概率以模拟实际数据
y = np.random.binomial(1, true_prob, size=n_samples)
# 划分数据集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
# 创建逻辑回归模型实例
model = LogisticRegression()
# 训练模型
model.fit(X_train, y_train)
# 预测测试集
y_pred = model.predict(X_test)
# 计算准确率
accuracy = accuracy_score(y_test, y_pred)
print(f"Accuracy: {accuracy}")
# 可视化决策边界
x_min, x_max = X[:, 0].min() - 1, X[:, 0].max() + 1
y_min, y_max = X[:, 1].min() - 1, X[:, 1].max() + 1
xx, yy = np.meshgrid(np.arange(x_min, x_max, 0.1),
np.arange(y_min, y_max, 0.1))
Z = model.predict(np.c_[xx.ravel(), yy.ravel()])
Z = Z.reshape(xx.shape)
plt.contourf(xx, yy, Z, alpha=0.4)
plt.scatter(X[:, 0], X[:, 1], c=y, edgecolors='k', s=20)
plt.xlabel('Feature 1')
plt.ylabel('Feature 2')
plt.title('Decision Boundary of the Logistic Regression Model')
plt.show()
结论
通过上述代码,我们模拟了数据并训练了一个逻辑回归模型。我们还可视化了决策边界,这有助于我们理解模型是如何区分不同类别的。