机器学习建模的数据特征工程—— 《Python深度学习》读书笔记（3）

最新推荐文章于 2024-06-05 22:33:24 发布

日拱一两卒

最新推荐文章于 2024-06-05 22:33:24 发布

阅读量737

点赞数 2

分类专栏：读书笔记

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/yangwohenmai1/article/details/88809249

版权

读书笔记同时被 2 个专栏收录

16 篇文章 0 订阅

订阅专栏

金融中的机器学习

7 篇文章 2 订阅

订阅专栏

本系列文章是对《Python深度学习》这本书阅读过程中，提炼出来的读书笔记。

《Python深度学习》这本书的作者是Keras之父，也是Tensorflow框架的贡献者，本书的特点是，作者从一个编程学习者的角度来描述机器学习，而不是堆上来复杂的数学公式和函数变换。所有的数学理论或者公式，都用程序的方式描述出来，对于没有数学功底的开发者来说是一个很大的福利。不过当然，后期还是离不开数学，但作为入门来说这本书就相当的好了。

前置课程：

机器学习的数学基础—— 《Python深度学习》读书笔记（1）

机器学习的模型概念和构建方法入门—— 《Python深度学习》读书笔记（2）

本章主要讲的是机器学习的数据特征工程方面的问题，什么是数据特征工程？

比如说你手上现在有一大批数据，这些数据有些是因为数据采集人员手误输错了；有的是因为没有及时输入数据导致数据中断或缺失；有的是特殊的原因造成数据不正常波动，如大旱或洪涝时期的粮食收成。对于这样的错误数据，缺失数据，异常波动数据，直接让机器学习只会让机器得出的模型偏差很大，那么你要怎么把手中的脏数据，清洗成合理的格式用于输入？这就是数据特征工程。

本章知识点：

1.机器学习的四个分支

监督学习，数据之间有映射关系的，比如训练机器学习1000张被标注“狗”标签的图片

无监督学习，只给你一批数据，你并不知道数据之间有什么内在关系，就让他自己学习，自我发现数据之间的内在联系。

自监督学习，用未来的数据来训练当前的结果，如时间序列预测的训练

强化学习，用于游戏，通过对当前场景的变化信息，学习如何使游戏获得的得分或奖励最大化

2.数据训练集的划分

如果你手上数据很多，那就简单的留出一部分数据不进行训练，用于后期的数据验证。

如果你手上数据不多，全拿来训练都不够用，但还要留出一部分用来验证，那就要用K折验证。所谓K折验证，就是把数据分为K份，首尾相接形成闭环，翻来覆去的训练。

对于没有时序关系的数据，可以使用重复的K折验证，也就是把分成K份的数据打乱后进行组合，这样能得到更多的数据。

3.数据特征工程内容

向量化，标准化，归一化，缺失值处理，数据编码方式one-hot code

4.数据的过拟合，欠拟合，以及解决办法

数据损失函数值越来越小，说明还有继续小下去的潜力，那就是欠拟合。

数据损函数值先变小，小到一定程度又变大，当他变大时就是过拟合了。那个最小值点就是最佳拟合点。一个最优的模型一定要有一个过拟合过程，才能找到最优的拟合点。

解决办法：减小或增大网络的大小，对权重的L1，L2正则化，神经节点的dropout正则化。

所谓正则化，是强制让模型权重只能取较小的值，从而限制模型的复杂度，这使得权重值的分布更加规则。其实现方法是向网络损失函数中添加与较大权重值相关的成本。

L1 正则化（L1 regularization）：添加的成本与权重系数的绝对值［权重的 L1 范数（norm）］成正比。
L2 正则化（L2 regularization）：添加的成本与权重系数的平方（权重的 L2 范数）成正比。神经网络的 L2 正则化也叫权重衰减

PS：奥卡姆剃刀原理是说，越简单的东西越可靠，模型层中，越多的权重系数能储存更多的信息，但也更容易过拟合，那么对于权重系数的数量，我们设定一个规则，每增加一个权重系数，就给网络的损失值增加一定比例，以防止过快的过拟合。

5.建模的流程及优化方法

定义需要建模的问题，

选择衡量模型是否有效的指标，

确定训练集,验证集，测试级的划分方法，

数据的准备和格式化，

建立一个符合常识的基准模型，

数据的欠拟合-过拟合处理

模型的正则化与超参数

6.常见的数据场景所适用的模型结构

见页底的图表

日拱一两卒

关注

2
点赞
踩
3

收藏

觉得还不错? 一键收藏
打赏
0
评论
机器学习建模的数据特征工程—— 《Python深度学习》读书笔记（3）

本系列文章是对《Python深度学习》这本书阅读过程中，提炼出来的读书笔记。《Python深度学习》这本书的作者是Keras之父，也是Tensorflow框架的贡献者，本书的特点是，作者从一个编程学习者的角度来描述机器学习，而不是堆上来复杂的数学公式和函数变换。所有的数学理论或者公式，都用程序的方式描述出来，对于没有数学功底的开发者来说是一个很大的福利。不过当然，后期还是离不开数学，但作为入门...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

日拱一两卒 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。