初级算法梳理之一

初级算法梳理之任务一:线性回归算法梳理

刚刚开始算法入门,希望能够一直坚持,见证自己成长,在算法之路上越走越远。并且感谢datawhale这个共同学习的平台。
时间匆忙,只能匆忙简单梳理完成任务,仅借鉴了前人的博客进行总结。等有时间,会再更新详细的内容。

借鉴博客文章:
作者:Xiaodata
连接:https://blog.csdn.net/Xiaodata/article/details/88055505
作者:爱果之琳
连接:https://blog.csdn.net/jll2014210714/article/details/88067192

学习内容

  1. 机器学习的一些概念
    有监督、无监督、泛化能力、过拟合欠拟合(方差和偏差以及各自解决办法)、交叉验证
  2. 线性回归的原理
  3. 线性回归损失函数、代价函数、目标函数
  4. 优化方法(梯度下降法、牛顿法、拟牛顿法等)
  5. 线性回归的评估指标
  6. sklearn参数详解

1、机器学习的一些概念

有监督学习:是机器学习任务的一种。 它从有标记的训练数据中推导出预测函数。 有标记的训练数据是指每个训练实例都包括输入和期望的输出。

无监督学习:训练数据没有标记信息的学习。

泛化能力:是指机器学习算法对新鲜样本的适应能力,学习的目的是学到隐含在数据对背后的规律,对具有同一规律的学习集以外的数据,经过训练的网络也能给出合适的输出,该能力称为泛化能力。

过拟合:过度拟合,貌似拟合几乎每一个数据,但是丢失了信息规律。
解决办法:1、减少特征的数量 2、正则化

欠拟合:拟合程度不高,数据距离拟合曲线较远。相对于过拟合,欠拟合较容易解决。
解决办法:添加其他特征项

交叉验证:是用来验证分类器的性能一种统计分析方法,基本思想是把在某种意义下将原始数据(dataset)进行分组,一部分做为训练集(training set),另一部分做为验证集(validation set),首先用训练集对分类器进行训练,在利用验证集来测试训练得到的模型(model),以此来做为评价分类器的性能指标。

2、线性回归的原理

因为我们对于一个数据集,不明确其之间的关系,所以需要构造一个函数,进行拟合数据,拟合后便可以实现取任意点进行值的预测。所以这里我们采用线性的函数进行拟合,和求解这个线性函数的参数的过程,以及将参数最优化就是线性回归算法在干的事情。
在这里插入图片描述

3、线性回归的损失函数、代价函数、目标函数

损失函数:样本模型真实值与预测值的误差,损失函数越小,说明拟合越好,并且损失函数是定义在单个样本上的,算的一个样本的误差
在这里插入图片描述
代价函数:定义在整个训练集上的,是所有样本误差的平均,也就是损失函数的平均
在这里插入图片描述
目标函数:最优化经验风险和结构风险,同时保证模型拟合效果好和避免过拟合
在这里插入图片描述
风险函数:
在这里插入图片描述

4、优化方法(梯度下降法、牛顿法、拟牛顿法等)

梯度下降法:是求解无约束最优化问题的一种最常见方法,它是迭代算法,每一步需要求解目标函数的梯度向量。梯度下降法需要选择一个适当的初值,然后不断更新x值,更新x需要确定步长和函数在目前此点的负梯度方向。

牛顿法:是求解无约束最优化问题的常用方法,有收敛速度快的优点,也属于迭代算法,每一步需要求解目标函数的海塞矩阵的逆矩阵.
基本思想是利用迭代点处的一阶导数(梯度)和二阶导数(Hessen矩阵)对目标函数进行二次函数近似,然后把二次模型的极小点作为新的迭代点,并不断重复这一过程,直至求得满足精度的近似极小值。牛顿法的速度相当快,而且能高度逼近最优值。牛顿法分为基本的牛顿法和全局牛顿法。

拟牛顿法:通过正定矩阵近似海塞矩阵的逆矩阵或海塞矩阵简化了计算

5、线性回归的评估指标

R-Squared 和 Adjusted R-Squared 都可以用来评估线性回归模型。
在这里插入图片描述
F Statistics 是指在零假设成立的情况下,符合F分布的统计量,多用于计量统计学中。
RMSE 指的是均方根误差:
在这里插入图片描述
MSE 指的是均方误差:
在这里插入图片描述
MAE 指的是评价绝对误差:
在这里插入图片描述

6、sklearn参数详解

1.fit_intercept:布尔值,指定是否需要计算线性回归中的截距,即b值。如果为False,那么不计算b值。
2.normalize:布尔值。如果为False,那么训练样本会进行归一化处理;当为True的时候,则回归量X将在回归之前通过减去平均值并除以I2范数来归一
3.copy_X:布尔值。如果为True,会复制一份训练数据。
4.n_jobs:一个整数。任务并行时指定的CPU数量。如果取值为-1则使用所有可用的CPU。
5.coef_:权重向量
6.intercept_:截距b值

PS:算法之路没有尽头,加油吧少年们!!!

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值