机器学习第一课

各种概念

过拟合和欠拟合

过拟合就是,通过训练集进行训练的时候,模型学习了太多的背景噪声,让模型的复杂度高于了真实模型(比如看到齿距型的叶子,就觉得不是叶子);
欠拟合是指,模型在训练集上进行学习的时候,效果就不是很好,没有充分学习到其中的信息量,复杂度低于真实模型,得到的模型泛化能力差(比如看到绿色,就觉得是叶子)

模型评估指标

模型评估指标有查全率、查准率

正则化

正则化上模型结构风险最小化策略的实现,目的是降低模型的复杂度,属于模型拟合情况最优的一种补充。(比如过多的特征选择可能会让模型的损失函数很小,但是会耗费巨大的计算成本,也会容易导致过拟合),是防止过拟合的一种情况

交叉验证

交叉验证即在训练模型之前,随机将总的数据集分为k个互斥的子集,使用其中k-1个子集作为训练集,剩余1个为验证集。遍历所有子集组合后,比较所有模型拟合结果,选择验证集上拟合效果最佳的模型。目的是尽可能地利用数据的信息,构建最优模型

数据挖掘流程

分析问题-获取数据-探索、清洗数据-特征工程-建模-调参-模型上线/定期更新

结构化数据

每一列是一个特征,每一行是一个样本的数据是结构化数据(如果一个样本有多行数据,则是非结构化数据)
对非结构化数据,需要进行特征工程转化为结构化数据

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值