1.结构风险最小化(Structural Risk Minimization):
是指把函数集构造为一个函数子集序列,使各个子集按照VC维的大小排列;在每个子集中寻找最小经验风险,在子集间折中考虑经验风险和置信范围,取得实际风险的最小化。即SRM准则。
2.正则化(regularization):
是指在线性代数理论中,不适定问题通常是由一组线性代数方程定义的,而且这组方程组通常来源于有着很大的条件数的不适定反问题。大条件数意味着舍入误差或其它误差会严重地影响问题的结果。
3.线性回归(linear regression):
是利用数理统计中回归分析,来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法
逻辑斯蒂回归
4逻辑斯蒂回归:
逻辑斯蒂回归=线性回归+Sigmoid函数/Soft-Max函数,逻辑斯蒂回归虽然是回归函数,但是通常被用来分类,用来解决二分类或多分类问题,逻辑斯蒂回归使用Sigmoid函数,一般用于解决二分类问题,比如将人按照性别分类,逻辑斯蒂回归使用Soft-Max函数,一般用于解决多分类问题,比如将人按职业不同进行分类。
5.Sigmoid与SoftMax函数:
Sigmoid函数:适用于多标签分类问题有多个正确答案,非互斥输出时使用;
Soft-Max函数:适用于多类别分类问题只有一个正确答案,互斥输出时使用。
Sigmoid函数:Sigmoid(X)=1╱1+e⁻ˣ常用于解决二分类问题
Soft-Max函数:Y'ᵢ=eʸⁱ╱∑ⱼeʸⁱ,常用于解决多分类问题
6.决策树:
决策树是一种通过树形结构来分类的方法。就是监管学习给出一堆样本,每个样本都有一组属性和一个分类结果,也就是分类结果已知,那么通过学习这些样本得到一个决策树,这个决策树能够对新的数据给出正确的分类。
7.信息熵,条件熵,信息增益:
信息熵:离散随机事件出现的概率,也就是所有可能时间发生带来的信息量的期望。
条件熵:按一个新的变量的每个值对原变量进行分类,举个例子就是在事件x下事件y的不确定性。
信息增益:信息增益是知道了某个条件后,事件的不确定性下降的程度。
8.线性判别分析LDA:
一种降维方法,通常用于解决监督学习中的分类问题,它的基本思想是通过投影降低纬度,投影结果应该满足类内方差最小,类间方差最大
在LDA中,假设每个类别的样本都是由多元正态分布生成的,并且具有相同的协方差矩阵。通过计算类别均值和协方差矩阵,可以推导出最佳分类超平面的方程式,从而对新的样本进行分类。
LDA常用于模式识别、生物统计学、金融分析等领域,尤其在高维数据集中表现良好。
9.概率近似正确PAC:
在条件一定的情况下,模型越复杂,过拟合程度越高,泛化能力越差。同一模型,样本越多,模型泛化能力越高。
10.自适应提升AdaBoost:
自适应提升(AdaBoost)是一种集成学习方法,用于提高机器学习算法的准确性和稳定性。AdaBoost 是由 Freund 和 Schapire 在 1996 年提出的,是一种迭代算法,每次迭代都会调整被错误分类的样本的权重,以便下一个基本分类器能够更好地分类这些样本。