1.结构风险最小化
结构风险最小化(Structural Risk Minimization,SRM),即把函数集构造为一个函数子集序列,使各个子集按照VC维的大小排列;在每个子集中寻找最小经验风险,在子集间折衷考虑经验风险和置信范围,取得实际风险的最小。
2.正则化
机器学习会在损失函数中加入正则化,这个过程叫做正则化。正则项通过缩小解的空间来减轻模型的过拟合程度,提高模型的泛化能力,一般有降低模型复杂程度(结构风险最小化)和降低方差两种办法。
3.线性回归
线性回归分为一元线性回归和多元线性回归,一元线性回归是指在坐标系中找出一条直线,让该直线尽可能多的穿过数据点,也就是让该模型的损失函数最小,多元线性回归就是将一元线性回归拓展到多个维度。
4.逻辑斯蒂回归
逻辑斯蒂回归是线性回归的衍生,本质上其实是“对数几率回归”,重点是sigmoid函数(Logistic函数):
由图可以看出来当x趋于无穷大和无穷小时,y的值趋于1和0,所以:
sigmoid函数常被用为神经网络的激活函数,将变量映射到(0,1)之间;
逻辑斯蒂回归分为两类:
- 二项逻辑斯蒂回归:使用Sigmoid函数,可将一个实数当作变量带入,得到一个(0,1)之间的概率值,用作二分类。
- 多项逻辑斯蒂回归:使用SoftMax函数,解决多分类问题
5.Sigmoid与SoftMax函数
sigmoid函数适用于多标签分类问题有多个正确答案,非互斥输出时使用;
softmax函数适用于多类别分类问题只有一个正确答案,互斥输出时使用。
6.决策树
决策树是一种通过树形结构来分类的方法。就是监管学习给出一堆样本,每个样本都有一组属性和一个分类结果,也就是分类结果已知,那么通过学习这些样本得到一个决策树,这个决策树能够对新的数据给出正确的分类。
7.信息熵,条件熵,信息增益
信息熵:离散随机事件出现的概率,也就是所有可能时间发生带来的信息量的期望。
条件熵:按一个新的变量的每个值对原变量进行分类,举个例子就是在事件x下事件y的不确定性。
信息增益:信息增益是知道了某个条件后,事件的不确定性下降的程度。
8.线性判别分析 LDA
LDA的思想是:最大化类间均值,最小化类内方差。就是将数据投影在低维度上,并且投影后同种类别数据的投影点尽可能的接近,不同类别数据的投影点的中心点尽可能的远。
9.概率近似正确 PAC
在条件一定的情况下,模型越复杂,过拟合程度越高,泛化能力越差。同一模型,样本越多,模型泛化能力越高。
10.自适应提升AdaBoost
强分类器中包含多个弱分类器,通过训练弱分类器,将弱分类器集成成为一个强分类器。
核心思想: 多去注意分类错误的样本,来纠正弱分类器;减少对正确分类样本的关注。