![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习
zzzz_123123
这个作者很懒,什么都没留下…
展开
-
MSE(L2损失)与MAE(L1损失)的分析
简单来说,MSE计算简便,但MAE对异常点有更好的鲁棒性。训练一个机器学习模型时,目标就是找到损失函数达到极小值的点。当预测值等于真实值时,这两种函数都能达到最小。分析:MSE对误差取了平方(令e=真实值-预测值),因此若e>1,则MSE会进一步增大误差。如果数据中存在异常点,那么e值就会很大,而e²则会远大于|e|。因此,相对于使用MAE计算损失,使用MSE的模型会赋予异常点更大的权...原创 2020-02-09 22:07:09 · 5602 阅读 · 0 评论 -
Xgboost windows编译调试通过的经验之谈
调了3天终于跳出来了。。用到的工具有VS studio 2015。PS:当时博主搞的时候不知道VS studio2017对linux支持的很好,也是后来才知道,感兴趣 的同学可以一上来就用VS studio2017试一下。一开始是只想用VScode,但是cmake的时候openmp lib有错误,因为debug的目的是看xgboost的代码,而不是去深入了解VScode库的,所以...原创 2020-01-02 23:36:39 · 666 阅读 · 0 评论 -
SVM 经典疑问收录
1.回顾一下,w与αi,xi,yi的关系式为:w = ∑ αi*yi*xi ,其中i = 1,2,3,...,N我们初始化的α是一个全为0的向量,即α1=α2=α3=...=αN=0,w的值即为0.我们进行SMO算法时,每轮挑选出两个变量αi,固定其他的α值,也就是说,那些从来没有被挑选出来过的α,值始终为0,而根据前面所学,支持向量对应的αi是一定满足 0<αi<=C的.有...原创 2019-12-19 19:41:47 · 169 阅读 · 0 评论 -
数据预处理的方式
1.样本调权2.归一化3.离散化4.独热向量编码5.Log/exp 变换6.PCA原创 2019-12-08 21:36:15 · 107 阅读 · 0 评论 -
batch normalization 为什么有效?
4.1 Normalization 的权重伸缩不变性从两方面来看,1、权重伸缩不变性可以有效地提高反向传播的效率。 主要体现在对x求导。2.权重伸缩不变性还具有参数正则化的效果,可以使用更高的学习率。 主要体现在对w求导。 意思是,如果某一次更新使得w变得很大,则lambada系数一定很大,那么梯度就减小了。在一定程度上体现了参数正则...原创 2019-11-22 11:56:19 · 160 阅读 · 0 评论 -
SVM经典疑问
来源:https://www.cnblogs.com/pinard/p/6111471.html#!comments1.第一变量选择的时候如果所有的点都满足KKT这么办呢 那说明不用跑了,现有的所有$alpha$即为我们需要求解的值。2.第二变量选择为啥要E1-E2最大呢 这样做的目的是为了加速迭代收敛过程。理论上不用E1-E2绝对值最大,不过这样有可能很多时候更新量很小...转载 2019-09-23 18:39:18 · 335 阅读 · 0 评论 -
LR和SVN的区别
1.损失函数不同。2.SVM仅考虑支持向量3.SVN有约束4.LR解释性更强4.SVNM不能给出概率结果6.SVN对w 正则项给出了几何解释7.SVM对非线性问题采用核函数,会更快点...原创 2019-09-07 19:31:09 · 192 阅读 · 0 评论 -
核函数简化的原理
假设原X是三维向量(x1, x2 ,x3)将核函数进行化简后得到的也是三维向量的内机。而如果不用核函数,现将原X映射到N维,再进行N维*N维,则计算量很大。通常N可能取到几百维下面是高斯核的推导可以看出,高斯核函数,将两个无线维的向量内积变成了两个向量减法的复杂度...原创 2019-09-07 18:02:15 · 487 阅读 · 0 评论 -
有关熵极大值的证明
来源:https://www.docin.com/p-992340359-f5.html转载 2019-07-28 19:43:56 · 2312 阅读 · 0 评论 -
为什么信息熵定义为p*log(p)
转载 2019-07-28 19:39:50 · 894 阅读 · 0 评论 -
最大似然估计推导最小二乘法以及解释矩阵不可逆的问题
原创 2019-07-28 18:10:55 · 2327 阅读 · 1 评论 -
GBDT
转载 2019-07-17 00:22:23 · 67 阅读 · 0 评论 -
平方损失、绝对值损失以及L0损失的推导
1.平方和损失的时候,最小的是所有样本均值的推导2. 取绝对值损失的时候,最小的是中位数的推导(假设x升序排列,因为x的顺序无关绝对值损失)3. L0损失,取的是众数...原创 2019-07-16 23:49:14 · 1929 阅读 · 0 评论