算法竞赛入门笔记4

最新推荐文章于 2024-07-16 19:26:54 发布

南方Nan

最新推荐文章于 2024-07-16 19:26:54 发布

阅读量120

点赞数

分类专栏：算法竞赛入门文章标签：机器学习 python

本文链接：https://blog.csdn.net/weixin_44514338/article/details/115210194

版权

算法竞赛入门专栏收录该内容

5 篇文章 0 订阅

订阅专栏

算法竞赛入门笔记4

Task4 模型调参

Task4 模型调参

逻辑回归模型

理解逻辑回归模型
逻辑回归的原理：https://blog.csdn.net/han_xiaoyang/article/details/49123419
逻辑回归模型的应用
逻辑回归模型常用于二分类问题。也用与文本分类、数据挖掘，疾病自动诊断，经济预测等领域。
逻辑回归的优缺点
- 优点
  - 训练速度较快，分类的时候，计算量仅仅只和特征的数目相关；
  - 简单易理解，模型的可解释性非常好，从特征的权重可以看到不同的特征对最后结果的影响；
  - 适合二分类问题，不需要缩放输入特征；
  - 内存资源占用小，只需要存储各个维度的特征值；
- 缺点
  - 逻辑回归需要预先处理缺失值和异常值【可参考task3特征工程】；
  - 不能用Logistic回归去解决非线性问题，因为Logistic的决策面是线性的；
  - 对多重共线性数据较为敏感，且很难处理数据不平衡的问题；
  - 准确率并不是很高，因为形式非常简单，很难去拟合数据的真实分布；

树模型

理解树模型
树模型的原理：https://blog.csdn.net/c406495762/article/details/76262487
树模型的应用
树模型也常用分类问题，同时也应用到各个领域中，在现在什么都是神经网络的现状下，传统的机器学习算法有更好的数学理论做基础。但是就神经网络在一些领域表现更出色。就感觉有点矛盾吧。
树模型的优缺点
- 优点
  - 简单直观，生成的决策树可以可视化展示
  - 数据不需要预处理，不需要归一化，不需要处理缺失数据
  - 既可以处理离散值，也可以处理连续值
- 缺点
  - 决策树算法非常容易过拟合，导致泛化能力不强（可进行适当的剪枝）
  - 采用的是贪心算法，容易得到局部最优解

集成模型

基于bagging思想的集成模型
- 随机森林模型
基于boosting思想的集成模型

Baggin和Boosting的区别总结如下：
- 样本选择上： Bagging方法的训练集是从原始集中有放回的选取，所以从原始集中选出的各轮训练集之间是独立的；而Boosting方法需要每一轮的训练集不变，只是训练集中每个样本在分类器中的权重发生变化。而权值是根据上一轮的分类结果进行调整
- 样例权重上： Bagging方法使用均匀取样，所以每个样本的权重相等；而Boosting方法根据错误率不断调整样本的权值，错误率越大则权重越大
- 预测函数上： Bagging方法中所有预测函数的权重相等；而Boosting方法中每个弱分类器都有相应的权重，对于分类误差小的分类器会有更大的权重
- 并行计算上： Bagging方法中各个预测函数可以并行生成；而Boosting方法各个预测函数只能顺序生成，因为后一个模型参数需要前一轮模型的结果。
个人心得
集成模型顾名思义，就是多个模型的的叠加（不是简单的叠加）。此时，这里就会有两种出现。同一种模型的集成和不同模型的集成。这所有的目的都是为了提升模型。虽然我在很多地方都见过这些集成模型，但老实说，其实没有真的明白它。我想这里是个好机会，让我们一起将其拿下。冲！

模型对比与性能评估

回归模型/树模型/集成模型
不同的模型拥有不同的性能评估方法。
模型评估方法
模型评价结果
不知道这里可以直接理解为损失函数的最优解不？
模型调参
- 贪心调参方法
  它每一步都选择当下最优的情况，这种方法很容易陷入局部最优解。
- 网格调参方法
  当你算法模型效果不是很好时,可以通过该方法来调整参数,通过循环遍历,尝试每一种参数组合,返回最好的得分值的参数组合比。简单的说就是暴力搜索，来找到最优的参数。但往往需要很大的计算资源，所以对于超大的数据量不建议使用。
- 贝叶斯调参方法

总结

这次的内容全都是干货，并且任务量有点大，需要消化的东西还挺多。感觉就是一本西瓜书。反正对于新手来说，难度还是挺大，虽然之前有看过西瓜书。但是理解得还不够。正是这样可以发现自己的不足，这对我自己来说是很好的一个过程。那么接下来就是好好沉下心来学。但是最近又一直被毕业论文分走大量的时间，所以总感觉自己学得不太爽（笑脸）。