吴恩达机器学习课程-作业5-Bias vs Variance（python实现）

最新推荐文章于 2024-08-07 20:48:59 发布

生榨的椰汁

最新推荐文章于 2024-08-07 20:48:59 发布

阅读量1.2k

点赞数 4

分类专栏： Machine Learing(Andrew) 文章标签：机器学习

本文链接：https://blog.csdn.net/weixin_44027820/article/details/104577199

版权

本文介绍了吴恩达机器学习课程中的正则化线性回归和偏差-方差的概念，通过Python实现相关算法。探讨了欠拟合和过拟合的问题，并通过多项式回归和学习曲线分析如何优化模型，强调了正确选择正则化参数λ的重要性。

摘要由CSDN通过智能技术生成

Machine Learning(Andrew) ex4-Regularized Linear Regression and Bias v.s. Variance

椰汁笔记

Regularized Linear Regression

1.1 Visualizing the dataset

对于一个机器学习的数据，通常会被分为三部分训练集、交叉验证集和测试集。训练集用于训练参数，交叉验证集用于选择模型参数，测试集用于评价模型。
这里的作业数据，已经给我们划分好了

    data = sio.loadmat("ex5data1.mat")
    X = data["X"]
    y = data["y"]
    Xval = data["Xval"]
    yval = data["yval"]
    Xtest = data["Xtest"]
    ytest = data["ytest"]

我们使用线性回归拟合的是训练集数据，因此可视化只用可视化训练集的数据

    plt.subplot(2, 2, 1)
    plt.scatter(X, y, marker='x', c='r')
    plt.xlabel("Change in water level (x)")
    plt.ylabel("Water flowing out of the dam (y)")
    plt.title("linear regression")
    plt.xlim((-50, 40))
    plt.ylim((-10, 40))
    plt.show()

数据看起来并不是那么符合线性规律hhh，~~感觉有点二次函数那味~~
在这里插入图片描述

1.2 Regularized linear regression cost function
线性回归在作业1中已经用到了，那里没有正规化，可能导致随着特征的增多出现过拟合现象。
$\mathit{J}(\theta) = \frac{1}{2m} (\sum_{i=1}^{m}h_\theta(x^{(i)}-y^{(i)})^{2})+\frac{\lambda}{2m}(\sum_{j=1}^{n}\theta_j^2)$
直接在之前的损失值计算中加入惩罚项，注意不惩罚theta0

def cost(theta, X, y, l):
    m = X.shape[0]
    part1 = np.mean(np.power(X.dot(theta) - y.ravel(), 2)) / 2
    part2 = (l / (2 * m)) * np.sum(np.delete(theta * theta, 0, axis=0))
    return part1 + part2

将theta全部设置为1，lambda设置为1，进行测试

    theta = np.ones((2,))
    X = np.insert(X, 0, 1, axis=1)
    print(cost(theta, X, y, 1))#303.9931922202643

1.3 Regularized linear regression gradient

最低0.47元/天解锁文章

生榨的椰汁

关注

4
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录