吴恩达机器学习笔记(八):advice for applying machine learning

最新推荐文章于 2024-04-28 16:39:42 发布

哇哈哈哈哈呀哇哈哈哈

最新推荐文章于 2024-04-28 16:39:42 发布

阅读量1.8k

点赞数

分类专栏：机器学习文章标签：机器学习人工智能 python

本文链接：https://blog.csdn.net/weixin_43818397/article/details/122832633

版权

机器学习专栏收录该内容

6 篇文章 0 订阅

订阅专栏

评估假设：Evaluating a hypothesis

Training/testing procedure for linear regression
在这里插入图片描述 Training/testing procedure for logistic regression

模型选择

Model selection and training/validation/test
sets
模型选择（model selection）
可以依据训练误差和测试误差来评估假设 $h_\theta(x)$ ；
一般来说，我们将数据集划分成训练集（60%）Train set、验证集（20%）交叉验证集Cross validation set和测试集（20%）test set；
在训练集上我们学习参数 θ ： minJ(θ)；
计算训练误差、验证误差：
在这里插入图片描述 for linear regression：
$J_{train}(\theta)=\frac{1}{2m_{train}} \sum_{i=1}^{m_{train}}(h_\theta(x_{train}^{(i)})-y_{train}^{(i)})^2$
$J_{cv}(\theta)=\frac{1}{2m_{cv}} \sum_{i=1}^{m_{cv}}(h_\theta(x_{cv}^{(i)})-y_{cv}^{(i)})^2$
for logistic regression：
$J_{train}(\theta)=-\frac{1}{m_{train}}\sum_{i=1}^{m_{train}}(y_{train}^{(i)}\log(h_\theta(x_{train}^{(i)}))+(1-y_{train}^{(i)})\log(1-h_\theta(x_{train}^{(i)})))$
$J_{cv}(\theta)=-\frac{1}{m_{cv}}\sum_{i=1}^{m_{cv}}(y_{cv}^{(i)}\log(h_\theta(x_{cv}^{(i)}))+(1-y_{cv}^{(i)})\log(1-h_\theta(x_{cv}^{(i)})))$
选择 $J_{cv}(\theta)$ 最小的模型；
计算测试误差 $J_{test}(\theta)$ ；
在这里插入图片描述

对于逻辑回归还可以计算误分类率：
在这里插入图片描述

诊断方差和偏差：Diagnosing bias vs variance

在这里插入图片描述一般来说，欠拟合会产生高偏差；过拟合过产生高方差；
具体来说，当模型欠拟合时，训练误差和验证误差都会较大；当模型过拟合时，训练误差很小，然而验证误差很大，如下图：

正规化和偏差方差

如何处理高方差和高偏差问题呢？
一般来说，加入合适的正则化项可以有效地避免过拟合。
当正则化参数 λ \lambda λ较大时， $\theta_j\approx0$ (除 $\theta_0$ 外)，假设函数趋于直线，因而会造成高偏差的问题，导致欠拟合；
当正则化参数 λ较小时，正则化项不起作用，模型会变得过拟合。

在这里插入图片描述一般的，对于高偏差问题（欠拟合）：

增加特征个数
增加多项式特征
降低 λ

对于高方差问题（过拟合）：

增加训练样本
减少特征个数
增加 λ

对于神经网络来说，参数越少，越有可能欠拟合；参数越多，网络结构越复杂，越有可能过拟合，应该加入正则化项。

学习曲线：Learning curves

高偏差，增加训练样本，交叉验证误差不会明显下降，基本变成平的，对改善算法没有益处。
参数少，数据多，m很大的时候，训练集误差和交叉验证集误差将会非常接近。
在这里插入图片描述

高方差，在训练误差和交叉验证误差之间有很大的差距。增加训练样本，交叉验证误差将会降低，对改进算法有好处。
在这里插入图片描述

改进算法

在这里插入图片描述

参考链接：https://blog.csdn.net/qq_29317617/article/details/86312154

哇哈哈哈哈呀哇哈哈哈

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
吴恩达机器学习笔记(八):advice for applying machine learning

评估假设：Evaluating a hypothesisTraining/testing procedure for linear regressionTraining/testing procedure for logistic regression模型选择Model selection and training/validation/testsets模型选择（model selection）可以依据训练误差和测试误差来评估假设 hθ(x)h_\theta(x)hθ(x)；一般来说，我
复制链接

扫一扫