定义
为了避免模型过拟合,不仅可以依赖算法本身的优化,还可以通过精心选择和处理特征来提升模型的泛化能力。
L1正则化会使得较多的参数为0,从而产生稀疏解,可以将0对应的特征遗弃,进而用来选择特征。
L2正则化可以减小特征的权重,在代价函数后加入一个正则项。
图形表示
# 导入必要的库
import numpy as np
from sklearn.linear_model import LinearRegression, Lasso, Ridge
import matplotlib.pyplot as plt
# 设置随机数种子
np.random.seed(666)
# 解决中文显示问题
plt.rcParams['font.sans-serif'] = ['SimHei']
plt.rcParams['axes.unicode_minus'] = False
# 生成数据
x = np.random.uniform(-3, 3, size=100)
X = x.reshape(-1, 1)
y = 0.5 * x ** 2 + x + 2 + np.random.normal(0, 1, size=100)
# 构建多项式特征
X2 = np.hstack([X, X ** 2])
X10 = np.hstack([X2, X ** 3, X ** 4, X ** 5, X ** 6, X ** 7, X ** 8, X ** 9, X ** 10])
linear = LinearRegression()
linear.fit(X10, y)
y_predict = linear.predict(X10)
# 绘制原始数据和预测结果
plt.figure(figsize=(12, 8))
plt.scatter(x, y, label='原始数据')
plt.plot(np.sort(x), y_predict[np.argsort(x)], color='red', label='线性回归')
plt.xlabel('x 值', fontsize=14)
plt.ylabel('y 值', fontsize=14)
plt.title('不加正则化时的拟合', fontsize=16)
plt.legend(fontsize=12)
plt.grid(True)
plt.show()
lasso = Lasso(alpha=0.005) # 调整alpha 正则化强度
lasso.fit(X10, y)
y_predict_l1 = lasso.predict(X10)
# 绘制原始数据和Lasso预测结果
plt.figure(figsize=(12, 8))
plt.scatter(x, y, label='原始数据')
plt.plot(np.sort(x), y_predict_l1[np.argsort(x)], color='red', label='Lasso 回归 (L1 正则)')
plt.xlabel('x 值', fontsize=14)
plt.ylabel('y 值', fontsize=14)
plt.title('L1 正则化 (Lasso)', fontsize=16)
plt.legend(fontsize=12)
plt.grid(True)
plt.show()
ridge = Ridge(alpha=0.5) # 调整alpha 正则化强度
ridge.fit(X10, y)
y_predict_l2 = ridge.predict(X10)
# 绘制原始数据和Ridge预测结果
plt.figure(figsize=(12, 8))
plt.scatter(x, y, label='原始数据')
plt.plot(np.sort(x), y_predict_l2[np.argsort(x)], color='red', label='Ridge 回归 (L2 正则)')
plt.xlabel('x 值', fontsize=14)
plt.ylabel('y 值', fontsize=14)
plt.title('L2 正则化 (Ridge)', fontsize=16)
plt.legend(fontsize=12)
plt.grid(True)
plt.show()