机器学习
知识不足恐惧症
这个作者很懒,什么都没留下…
展开
-
机器学习秋招复习知识点
1.逻辑回归为什么用交叉熵损失函数而不用平方误差函数?答: 因为平方误差函数得到的损失函数,是一个非凸函数,求解时很容易陷入局部最优,而交叉熵损失函数是一个凸函数,通过凸优化算法很容易得到最优解。2.解决非线性问题时,SVM采用核技巧,逻辑回归为什么不用?答:SVM只有少量的支持向量参与到核函数运算中,计算复杂度不高,而逻辑回归如果要使用核技巧,所有的样本点都要参与运算,计算复杂度太高。3.为什么要引入核函数?解决线性不可分解决在高维空间中计算困难的问题4.SVM为什么对缺失的特征值敏原创 2020-09-11 18:27:54 · 5877 阅读 · 0 评论 -
L1正则化与L2正则化的相关问题
1. 正则化的目的在对已有的数据进行训练时,由于在实际中不可能获取无穷无尽的数据去训练,以获取一个泛化性能特别好的模型,所以针对当前的有限数据,学习出的模型很有可能会出现过拟合,也就是过分的拟合当前的数据,或者说模型太过复杂。针对过拟合现象,正则化是人为的降低了模型的复杂度,类似于剪枝策略。希望在最小化训练误差的同时,通过这种正则化还能够提升模型的泛华能力。2. L1正则化L1正则化就是权值向量各个分量的绝对值之和,它更容易获得一个稀疏解。3. L2正则化L2正则化是权值向量的模的和,它对模型的原创 2020-07-04 22:48:29 · 268 阅读 · 0 评论 -
机器学习之集成学习算法学习笔记
1.boosting方法Boosting方法是一种将弱学习器提升为强学习器的算法。原理:先从初始的训练集中训练处一个基学习器,在根据基学习器的表现对训练样本分布进行调整,使得当前基学习器的分类错误的样本在后续收到更多的关注,基于调整后的样本分布继续训练下一个基学习器。如此反复进行,直到所有基学习器训练完毕,最终将所有基学习器加权平均。最著名的代表是 AdaBoost 算法。它学习过程中,对分类正确的样本降低了权重,对分类错误的样本升高权重或保持不变。在算法中,需要对训练样本分布进行重新调整。有两种调原创 2020-06-14 23:14:01 · 182 阅读 · 0 评论 -
支持向量机问题笔记
1.函数间隔一般来说,一个点距离超平面的距离的远近可以表示该点分类正确的确信程度,即该点距离超平面越远,越相信该点的分类是正确的,越近就越不相信;超平面确定的情况下,可以相对的表示该点到平面的距离,而符号表示分类是否正确,所以符号乘以距离就表示分类的正确性以及确信程度,这就是函数间隔。对于样本点(xi , yi),超平面wx + b = 0对于该点的函数间隔为超平面关于数据集函数间隔的定义为,对于一个超平面,数据集中所有样本点到该超平面的最小函数间隔值。2. 几何间隔在函数间隔中,当成比例原创 2020-06-03 23:12:34 · 488 阅读 · 0 评论 -
决策树笔记(西瓜书)
决策树:一棵决策树包含一个根节点,若干个叶节点,若干个内部节点。每个叶节点表示相对应的决策结果。决策树的生成是一个递归过程,每个节点会遇到三种情况:当前节点对应的数据集中只有一种类别数据,则无需再划分;当前节点属性集为空,或者数据的取值全部相同,则将当前节点设为叶节点,对应的类别为,数据中包含样本量最多的类别,即哪个类别的样本量最多,叶节点对应的类别就是它;当前节点已经不包含任何样本,则当前节点同样设为叶节点,对应的类别为,父节点中包含类别数最多的类别。决策树的关键在于如何选择属性进行划分,原创 2020-05-26 21:04:30 · 310 阅读 · 0 评论 -
logistic regression 系列问题
1. LR与线性回归的区别与联系区别:经典线性模型的优化目标函数是最小二乘法,也就是基于均方误差函数的最小化;而LR是最大化似然函数,也是最小化交叉熵。线性回归的输出是一个实值,而LR的输出是{0, 1};或者说,线性回归是解决回归问题,但LR是解决分类问题;联系:LR的本质也是一个线性回归模型,只不过在模型外套了一层联系函数,使得线性回归的输出实值与分类问题的{0, 1}联系在了一起。2. 为什么要对数据做归一化?归一化可以加快梯度下降时的速度:如上图中,x1, x2两个特征原创 2020-05-22 22:39:47 · 191 阅读 · 0 评论 -
线性回归基础相关公式
具体公式推导:一元线性回归公式推导多元线性回归公式推导原创 2020-05-21 20:36:23 · 1782 阅读 · 0 评论