Task4 模型和调参

最新推荐文章于 2020-05-30 21:45:01 发布

努力momo

最新推荐文章于 2020-05-30 21:45:01 发布

阅读量167

点赞数

原文链接：https://github.com/datawhalechina/team-learning/blob/master/%E6%95%B0%E6%8D%AE%E6%8C%96%E6%8E%98%E5%AE%9E%E8%B7%B5%EF%BC%88%E4%BA%8C%E6%89%8B%E8%BD%A6%E4%BB%B7%E6%A0%BC%E9%A2%84%E6%B5%8B%EF%BC%89/Task4%20%E5%BB%BA%E6%A8%A1%E8%B0%83%E5%8F%82%20.md

版权

机器学习模型
1.线性回归
本质上它是一系列特征的线性组合，在二维空间中，你可以把它视作一条直线，在三维空间中可以视作是一个平面。
为了获得w和b我们需要制定一定的策略，而这个策略在机器学习的领域中，往往描述为真实值与回归值的偏差。

优化方法：
思路是线性代数中的矩阵求导
任务变成了求这个公式的数学问题。

梯度下降：梯度方向就是增长最快的方向，如果我们想要函数值减小，只需要沿着负梯度方向走就行了。具体求这个grad的方法就是，对loss求偏导就可以啦。

2.决策树（Decision Tree）是一种基本的分类与回归方法，当决策树用于分类时称为分类树，用于回归时称为回归树。
决策树由结点和有向边组成。结点有两种类型：内部结点和叶结点，其中内部结点表示一个特征或属性，叶结点表示一个类。一般的，一棵决策树包含一个根结点、若干个内部结点和若干个叶结点。叶结点对应于决策结果，其他每个结点则对应于一个属性测试。每个结点包含的样本集合根据属性测试的结果被划分到子结点中，根结点包含样本全集，从根结点到每个叶结点的路径对应了一个判定测试序列。在下图中，圆和方框分别表示内部结点和叶结点。决策树学习的目的是为了产生一棵泛化能力强，即处理未见示例能力强的决策树。
决策树学习本质上是从训练数据集中归纳出一组分类规则。与训练数据集不相矛盾的决策树（即能对训练数据进行正确分类的决策树）可能有多个，也可能一个也没有。我们需要的是一个与训练数据矛盾较小的决策树，同时具有很好的泛化能力。从另一个角度看，决策树学习是由训练数据集估计条件概率模型。基于特征空间划分的类的条件概率模型有无穷多个，我们选择的条件概率模型应该不仅对训练数据有很好的拟合，而且对未知数据有很好的预测。

3.GBDT模型
是一个集成模型，是很多CART树的线性相加。

模型调参：
1.贪心算法：
基本思路：
建立数学模型来描述问题
把求解的问题分成若干个子问题
对每个子问题求解，得到子问题的局部最优解
把子问题的解局部最优解合成原来问题的一个解
问题：
不能保证求得的最后解是最佳的
不能用来求最大值或最小值的问题
只能求满足某些约束条件的可行解的范围
2.Grid Search 网格搜索
GridSearchCV：一种调参的方法，当你算法模型效果不是很好时，可以通过该方法来调整参数，通过循环遍历，尝试每一种参数组合，返回最好的得分值的参数组合
问题：评分值会比实际效果要好
解决方法：
我们可以通过把数据集划分三份，一份是训练集（训练数据），一份是验证集（调整参数），一份是测试集（测试模型）。
3.贝叶斯优化方法
贝叶斯优化通过基于目标函数的过去评估结果建立替代函数（概率模型），来找到最小化目标函数的值。贝叶斯方法与随机或网格搜索的不同之处在于，它在尝试下一组超参数时，会参考之前的评估结果，因此可以省去很多无用功。
问题：
目标函数：我们想要最小化的内容，在这里，目标函数是机器学习模型使用该组超参数在验证集上的损失。
域空间：要搜索的超参数的取值范围
优化算法：构造替代函数并选择下一个超参数值进行评估的方法。
结果历史记录：来自目标函数评估的存储结果，包括超参数和验证集上的损失。