岭回归（Ridge Regression）

盛夏未来

已于 2023-09-07 19:45:04 修改

阅读量4w

点赞数 27

分类专栏：机器学习算法基础文章标签：回归数据挖掘人工智能

于 2020-01-10 21:09:41 首次发布

本文链接：https://blog.csdn.net/weixin_44831924/article/details/103929256

版权

机器学习算法基础专栏收录该内容

10 篇文章 8 订阅

订阅专栏

岭回归（Ridge Regression）

岭回归基本原理
sklearn实现岭回归

岭回归基本原理

在这里插入图片描述
岭回归的代价函数加入了一个L2正则项（没有正则项的是无偏估计，加入正则项的代价函数为有偏估计），最后一个正则项系数label与前面的岭系数label不一样。下面是岭回归的代价函数：

那么对岭回归的label值怎么选择呢？可以见下图（纵坐标表示参数θ的变化，横坐标表示岭系数lable值的变化）每一条曲线表示一个参数值的变化。最下化代价函数的值，则可以从2部分下手（一是预测值与真实值越接近，二是正则化项的θ值比较小（θ越大，label越小））。基本原理看下图文字：

不同的算法算出的label值会有所不同，在上图中，要使各个回归系数的岭估计都趋向于稳定，而且参数θ要比较小，所以最佳的label值可以选择K0。

sklearn实现岭回归

  下面我们用python来实现岭回归，用到的数据集为Longley数据集，Longley数据集来自J.W.Longley(1967)发表在JASA上的一篇论文，是强共线性的宏观经济数据，包括GNP deflator（GNP平减指数）、GNP（国民生产总值）、Unemployment（失业率）、ArmedForces（武装力量）、Population（人口）、year（年份），Emlpoyed（就业率）。Longley数据集因存在严重的多重共线性问题，在早期经常用来检验各种算法或计算机的计算精度。
  数据集链接: https://pan.baidu.com/s/1UovBFR70IkYiR-VetqZL2Q 提取码: hybv
  注意事项：安装sklearn时使用的命令是"pip install scikit-learn"

import numpy as np
from numpy import genfromtxt
from sklearn import linear_model
import matplotlib.pyplot as plt

# 读入数据
data = genfromtxt(r"longley.csv", delimiter=',')
print(data)

# 切分数据
x_data = data[1:, 2:]
y_data = data[1:, 1]
print(x_data)
print(y_data)

# 创建模型
# 生成50个值作为label的候选值，此处是alphas
# linspace默认生成50个值，若想生成100个，可以修改为(0.001,1,100)
alphas_to_test = np.linspace(0.001, 1)
# 创建模型，保存误差值，ridge表示岭回归，cv表示交叉验证
model = linear_model.RidgeCV(alphas=alphas_to_test, store_cv_values=True)
model.fit(x_data, y_data)

# 岭系数
print(model.alpha_)
# loss值（16个loss值，50个岭系数，每一个系数对应一个loss值）
print(model.cv_values_.shape)

# 画图，横坐标是岭系数的50个值，纵坐标是交叉验证法得到的16个loss值的平均值
# 岭系数跟loss值的关系
plt.plot(alphas_to_test, model.cv_values_.mean(axis=0))
# 选取的岭系数值的位置
plt.plot(model.alpha_, min(model.cv_values_.mean(axis=0)), 'ro')
plt.show()

model.predict(x_data[2, np.newaxis])

运行结果如下：
[[ nan nan nan nan nan nan nan nan]
[ nan 83. 234.289 235.6 159. 107.608 1947. 60.323]
[ nan 88.5 259.426 232.5 145.6 108.632 1948. 61.122]
[ nan 88.2 258.054 368.2 161.6 109.773 1949. 60.171]
[ nan 89.5 284.599 335.1 165. 110.929 1950. 61.187]
[ nan 96.2 328.975 209.9 309.9 112.075 1951. 63.221]
[ nan 98.1 346.999 193.2 359.4 113.27 1952. 63.639]
[ nan 99. 365.385 187. 354.7 115.094 1953. 64.989]
[ nan 100. 363.112 357.8 335. 116.219 1954. 63.761]
[ nan 101.2 397.469 290.4 304.8 117.388 1955. 66.019]
[ nan 104.6 419.18 282.2 285.7 118.734 1956. 67.857]
[ nan 108.4 442.769 293.6 279.8 120.445 1957. 68.169]
[ nan 110.8 444.546 468.1 263.7 121.95 1958. 66.513]
[ nan 112.6 482.704 381.3 255.2 123.366 1959. 68.655]
[ nan 114.2 502.601 393.1 251.4 125.368 1960. 69.564]
[ nan 115.7 518.173 480.6 257.2 127.852 1961. 69.331]
[ nan 116.9 554.894 400.7 282.7 130.081 1962. 70.551]]
[[ 234.289 235.6 159. 107.608 1947. 60.323]
[ 259.426 232.5 145.6 108.632 1948. 61.122]
[ 258.054 368.2 161.6 109.773 1949. 60.171]
[ 284.599 335.1 165. 110.929 1950. 61.187]
[ 328.975 209.9 309.9 112.075 1951. 63.221]
[ 346.999 193.2 359.4 113.27 1952. 63.639]
[ 365.385 187. 354.7 115.094 1953. 64.989]
[ 363.112 357.8 335. 116.219 1954. 63.761]
[ 397.469 290.4 304.8 117.388 1955. 66.019]
[ 419.18 282.2 285.7 118.734 1956. 67.857]
[ 442.769 293.6 279.8 120.445 1957. 68.169]
[ 444.546 468.1 263.7 121.95 1958. 66.513]
[ 482.704 381.3 255.2 123.366 1959. 68.655]
[ 502.601 393.1 251.4 125.368 1960. 69.564]
[ 518.173 480.6 257.2 127.852 1961. 69.331]
[ 554.894 400.7 282.7 130.081 1962. 70.551]]
[ 83. 88.5 88.2 89.5 96.2 98.1 99. 100. 101.2 104.6 108.4 110.8
112.6 114.2 115.7 116.9]
0.40875510204081633
(16, 50)

在这里插入图片描述

盛夏未来

关注

27
点赞
踩
197

收藏

觉得还不错? 一键收藏
4
评论
岭回归（Ridge Regression）

岭回归（Ridge Regression）岭回归基本原理sklearn实现岭回归标准方程法实现岭回归岭回归基本原理        岭回归的代价函数加入了一个L2正则项（没有正则项的是无偏估计，加入正则项的代价函数为有偏估计），最后一个正则项系数label与前面的岭系数label不一样。下面是岭回归的代价函数：     &nb...
复制链接

扫一扫