python机器学习之模型选择与优化

十三先生po

已于 2022-03-23 10:11:03 修改

阅读量3.3k

点赞数 5

分类专栏：数据分析机器学习文章标签： python 机器学习人工智能

于 2022-03-17 21:48:51 首次发布

本文链接：https://blog.csdn.net/weixin_55579895/article/details/123546451

版权

本文探讨了在机器学习中如何解决过拟合和欠拟合问题，包括模型选择、数据增强、PCA降维和正则化等方法。通过炮弹轨迹预测和芯片品质预测两个实战案例，阐述了模型优化过程，强调了模型评估的重要性，特别是混淆矩阵在分类问题中的应用。

摘要由CSDN通过智能技术生成

问题引入

在这里插入图片描述
对于以上的炮弹问题，想分析他不用的数据模型

根据芯片尺寸1、尺寸2参数识别次品
在这里插入图片描述

由于模型不合适，致使其无法对数据进行准确的预测
在这里插入图片描述

原因：
Ø 使用了过于复杂的模型结构（比如高阶决策边界）
Ø 训练数据不足，有限的训练数据（训练样本只有总体样本中的小部分、不具备代表性）
Ø 样本里的噪音数据干扰过大，模型学习到了噪音信息（使用过多与结果不相关属性数据）

解决办法：
Ø 简化模型结构（降低模型复杂度，能达到好的效果情况下尽可能选择简单的模型）
Ø 数据增强（按照一定的规则扩充样本数据）
Ø 数据预处理，保留主成分信息（数据PCA处理）
Ø 增加正则化项（regularization）

在这里插入图片描述

机器学习过程中，模型求解的核心目标就是最小化损失函数，增加正则项是指在损失函数中添加一个额外项，实现对求解参数的数值约束，防止模型过拟合。

在这里插入图片描述

如果λ是很大的数值（比如1000000)，那各个θ取值就不能过大，其意义则是各个属性数据的系数受到约束（有效控制各个属性数据的影响）。

（这里用ridge正则项做例子，但并不局限,如用绝对值亦可）
在这里插入图片描述

在这里插入图片描述
- 回归模型，引入不同正则项

在这里插入图片描述
如在分类项目中

如果想偷个懒，不知道该用几阶的回归任务，直接选用一个高阶的（如10阶5阶），这时候很有可能过拟合，则在这个的基础上增加一个pca数据分析降维，再去训练模型

思考：仅仅通过训练数据的预测效果，是否足以评判模型的表现？
在这里插入图片描述

1、把全部数据分成两组：训练集、测试集
2、用训练集里的数据输入模型进行训练
3、用测试集里的数据输入模型进行预测，能有效评估此模型预测新的输入数据的表现
在这里插入图片描述

用于评估模型训练结果后的准确性，在前期学习的时候，我们对模型评估的方法就是查看其准确率，但是也有局限性：不能全面或真实表达模型对各类别结果的预测准确度

案例：奢饰品公司在投放广告前，根据部分高档消费客户的数据作为训练集和测试集，训练测试了高档消费客户的分类模型。该模型的准确率达到了95%。但是在实际广告投时，发现模型输出预测都为普非高档消费客户（非目标用户群体），其结果无法帮助决策。

在这里插入图片描述
更好的理解其中原因，我们将以上案例的数值提取出来概括：例如有100个样本，95个负样本，只有5个正样本，如果测试所有的样本结果都是负样本，也可以说准确率是95%

以准确率作为分类问题的评价指标是有明显缺陷的，假如不同样本的比例非常不均衡，占大比例的类别会成为影响准确率的主要原因。