初级算法梳理之一

最新推荐文章于 2022-08-26 10:28:04 发布

sanchez_yang

最新推荐文章于 2022-08-26 10:28:04 发布

阅读量280

点赞数

分类专栏：算法自学文章标签：算法自学

本文链接：https://blog.csdn.net/ysq319/article/details/88866709

版权

算法自学专栏收录该内容

3 篇文章 0 订阅

订阅专栏

初级算法梳理

初级算法梳理之任务一：线性回归算法梳理

初级算法梳理之任务一：线性回归算法梳理

刚刚开始算法入门，希望能够一直坚持，见证自己成长，在算法之路上越走越远。并且感谢datawhale这个共同学习的平台。
时间匆忙，只能匆忙简单梳理完成任务，仅借鉴了前人的博客进行总结。等有时间，会再更新详细的内容。

借鉴博客文章：
作者：Xiaodata
连接：https://blog.csdn.net/Xiaodata/article/details/88055505
作者：爱果之琳
连接：https://blog.csdn.net/jll2014210714/article/details/88067192

学习内容

机器学习的一些概念
有监督、无监督、泛化能力、过拟合欠拟合(方差和偏差以及各自解决办法)、交叉验证
线性回归的原理
线性回归损失函数、代价函数、目标函数
优化方法(梯度下降法、牛顿法、拟牛顿法等)
线性回归的评估指标
sklearn参数详解

1、机器学习的一些概念

有监督学习：是机器学习任务的一种。它从有标记的训练数据中推导出预测函数。有标记的训练数据是指每个训练实例都包括输入和期望的输出。

无监督学习：训练数据没有标记信息的学习。

泛化能力：是指机器学习算法对新鲜样本的适应能力,学习的目的是学到隐含在数据对背后的规律，对具有同一规律的学习集以外的数据，经过训练的网络也能给出合适的输出，该能力称为泛化能力。

过拟合：过度拟合，貌似拟合几乎每一个数据，但是丢失了信息规律。
解决办法：1、减少特征的数量 2、正则化

欠拟合：拟合程度不高，数据距离拟合曲线较远。相对于过拟合，欠拟合较容易解决。
解决办法：添加其他特征项

交叉验证：是用来验证分类器的性能一种统计分析方法，基本思想是把在某种意义下将原始数据（dataset）进行分组，一部分做为训练集（training set），另一部分做为验证集（validation set），首先用训练集对分类器进行训练，在利用验证集来测试训练得到的模型（model），以此来做为评价分类器的性能指标。

2、线性回归的原理

因为我们对于一个数据集，不明确其之间的关系，所以需要构造一个函数，进行拟合数据，拟合后便可以实现取任意点进行值的预测。所以这里我们采用线性的函数进行拟合，和求解这个线性函数的参数的过程，以及将参数最优化就是线性回归算法在干的事情。
在这里插入图片描述

3、线性回归的损失函数、代价函数、目标函数

损失函数：样本模型真实值与预测值的误差，损失函数越小，说明拟合越好，并且损失函数是定义在单个样本上的，算的一个样本的误差
在这里插入图片描述
代价函数：定义在整个训练集上的，是所有样本误差的平均，也就是损失函数的平均

目标函数：最优化经验风险和结构风险，同时保证模型拟合效果好和避免过拟合

风险函数:

4、优化方法（梯度下降法、牛顿法、拟牛顿法等）

梯度下降法：是求解无约束最优化问题的一种最常见方法，它是迭代算法，每一步需要求解目标函数的梯度向量。梯度下降法需要选择一个适当的初值，然后不断更新x值，更新x需要确定步长和函数在目前此点的负梯度方向。

牛顿法：是求解无约束最优化问题的常用方法，有收敛速度快的优点，也属于迭代算法，每一步需要求解目标函数的海塞矩阵的逆矩阵.
基本思想是利用迭代点处的一阶导数(梯度)和二阶导数(Hessen矩阵)对目标函数进行二次函数近似，然后把二次模型的极小点作为新的迭代点，并不断重复这一过程，直至求得满足精度的近似极小值。牛顿法的速度相当快，而且能高度逼近最优值。牛顿法分为基本的牛顿法和全局牛顿法。

拟牛顿法：通过正定矩阵近似海塞矩阵的逆矩阵或海塞矩阵简化了计算

5、线性回归的评估指标

R-Squared 和 Adjusted R-Squared 都可以用来评估线性回归模型。
在这里插入图片描述
F Statistics 是指在零假设成立的情况下，符合F分布的统计量，多用于计量统计学中。
RMSE 指的是均方根误差：

MSE 指的是均方误差：

MAE 指的是评价绝对误差：

6、sklearn参数详解

1.fit_intercept:布尔值，指定是否需要计算线性回归中的截距，即b值。如果为False,那么不计算b值。
2.normalize:布尔值。如果为False，那么训练样本会进行归一化处理；当为True的时候，则回归量X将在回归之前通过减去平均值并除以I2范数来归一
3.copy_X：布尔值。如果为True，会复制一份训练数据。
4.n_jobs:一个整数。任务并行时指定的CPU数量。如果取值为-1则使用所有可用的CPU。
5.coef_:权重向量
6.intercept_:截距b值

PS：算法之路没有尽头，加油吧少年们！！！

sanchez_yang

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
初级算法梳理之一

初级算法梳理初级算法梳理之任务一：线性回归算法梳理1、机器学习的一些概念2、线性回归的原理3、线性回归的损失函数、代价函数、目标函数4、优化方法（梯度下降法、牛顿法、拟牛顿法等）5、线性回归的评估指标6、sklearn参数详解初级算法梳理之任务一：线性回归算法梳理刚刚开始算法入门，希望能够一直坚持，见证自己成长，在算法之路上越走越远。并且感谢datawhale这个共同学习的平台。时间匆忙，只...
复制链接

扫一扫

专栏目录