TASK3

最新推荐文章于 2024-03-29 22:32:46 发布

weixin_46644812

最新推荐文章于 2024-03-29 22:32:46 发布

阅读量57

点赞数

本文链接：https://blog.csdn.net/weixin_46644812/article/details/105255446

版权

1，模型：
1)，线性回归模型
https://zhuanlan.zhihu.com/p/49480391
2)，决策树模型
https://zhuanlan.zhihu.com/p/65304798
3)，GBDT模型
https://zhuanlan.zhihu.com/p/45145899
4)，XGBoost模型
https://zhuanlan.zhihu.com/p/45145899
5)，LightGBM模型
https://zhuanlan.zhihu.com/p/89360721

2，模型性能验证
1）损失函数，代价函数，目标函数
损失函数：计算的是一个样本的误差
代价函数：是整个训练集上所有样本误差的平均
目标函数：代价函数 + 正则化项
https://blog.csdn.net/qq_28448117/article/details/79199835
2）验证方法：
交叉验证法
留一验证法：针对时间序列问题的验证

3，模型调参
1，贪心算法
在对问题求解时，总是做出在当前看来是最好的选择。也就是说，不从整体最优上加以考虑，它所做出的仅仅是在某种意义上的局部最优解。
贪心算法的基本思路：
a,建立数学模型来描述问题
b,把求解的问题分成若干个子问题
c,对每个子问题求解，得到子问题的局部最优解
d,把子问题的解局部最优解合成原来问题的一个解

2，网格调参
穷举搜索：在所有候选的参数选择中，通过循环遍历，尝试每一种可能性，表现最好的参数就是最终的结果。其原理就像是在数组里找最大值。
存在的问题：
原始数据集划分成训练集和测试集以后，其中测试集除了用作调整参数，也用来测量模型的好坏；这样做导致最终的评分结果比实际效果要好。（因为测试集在调参过程中，送到了模型里，而我们的目的是将训练模型应用在unseen data上）；
解决方法：
对训练集再进行一次划分，分成训练集和验证集，这样划分的结果就是：原始数据划分为3份，分别为：训练集、验证集和测试集；其中训练集用来模型训练，验证集用来调整参数，而测试集用来衡量模型表现好坏。

3，贝叶斯调参
贝叶斯优化用于机器学习调参由J. Snoek(2012)提出，主要思想是，给定优化的目标函数(广义的函数，只需指定输入和输出即可，无需知道内部结构以及数学性质)，通过不断地添加样本点来更新目标函数的后验分布(高斯过程,直到后验分布基本贴合于真实分布。简单的说，就是考虑了上一次参数的信息**，从而更好的调整当前的参数。
贝叶斯优化是一种逼近思想，当计算非常复杂、迭代次数较高时能起到很好的效果，多用于超参数确定。
基本思想
是基于数据使用贝叶斯定理估计目标函数的后验分布，然后再根据分布选择下一个采样的超参数组合。它充分利用了前一个采样点的信息，其优化的工作方式是通过对目标函数形状的学习，并找到使结果向全局最大提升的参数
高斯过程
用于在贝叶斯优化中对目标函数建模，得到其后验分布
通过高斯过程建模之后，我们尝试抽样进行样本计算，而贝叶斯优化很容易在局部最优解上不断采样，这就涉及到了开发和探索之间的权衡。
开发 (exploitation)：根据后验分布，在最可能出现全局最优解的区域进行采样, 开发高意味着均值
探索 (exploration): 在还未取样的区域获取采样点，探索高意味着方差高。
而如何高效的采样，即开发和探索，我们需要用到 Acquisition Function, 它是用来寻找下一个 x 的函数。