1. 机器学习的一些概念 有监督、无监督、泛化能力、过拟合欠拟合(方差和偏差以及各自解决办法)、交叉验证
有监督是指训练模型的数据需要有标签;
无监督是指训练模型的数据无标签;
泛化能力是指在测试集上训练好的模型是否在其他数据集上同样有好的表现能力;
过拟合是指模型在训练集上表现良好,在测试集上表现较差,也就是说模型的泛化能力差;
欠拟合则是指模型在训练集和测试集上的表现都不好;
方差刻画了算法本身的拟合能力,选择合适的模型,进行足够的训练是控制方差的方法;
偏差刻画了数据扰动对评估结果所造成的影响,合理控制训练程度是避免高偏差的措施;
交叉验证是用来评估学习器泛化能力的一种技术,交叉验证也可以用于超参数的选择。
2. 线性回归的原理
线性回归利用了最小二乘法的原理,即预测值与真实值的均方误差最小
3. 线性回归损失函数、代价函数、目标函数
损失函数是针对单个样本而言,代价函数指的是整个训练集,都是衡量真实值与预测值差距的函数,目标函数是指在代价函数的基础上增加正则化项,正则化项是用来对参数进行约束的。
4. 优化方法(梯度下降法、牛顿法、拟牛顿法等)
梯度下降法是一阶收敛,仅考虑了当下走一步的最佳方向,牛顿法在梯度下降的基础上进行,属于二阶收敛,它同时考虑了每走一步对下一步行走方向的影响,收敛速度更快,拟牛顿法解决了牛顿法中需要求解Hessian矩阵的逆矩阵的缺陷,使用正定矩阵来近似Hessian矩阵的逆,简化了运算复杂度。
5、线性回归的评估指标
均方误差,均方根误差,R方等。
6、sklearn参数详解
fit_intercept:默认为true,说明:是否对训练数据进行中心化,即是否需要b值,若果为False,则不需要;
Normalize:默认为false,说明:是否对数据进行归一化处理;
copy_X:默认为true,说明:是否对X复制,如果选择false,则直接对原数据进行覆盖。(即经过中心化,归一化后,是否把新数据覆盖到原数据上),true则赋值X;
n_jobs:默认为1,说明:计算时设置的任务个数(number of jobs),如果选择-1则代表使用所有的CPU。