- 博客(7)
- 收藏
- 关注
原创 Regularization
概述L1和L2正则项本质上是对参数进行先验分布假设,具体来说L1对应拉普拉斯先验,L2对应高斯先验。ML与MAP的不同maximum likelihood (ML) 极大似然估计:MAP (maximum a posterior) 最大后验概率估计:即p(θ)p(\theta)p(θ)进行了先验假设。拉普拉斯分布L1正则化对应假设每个参数服从均值为0的拉普拉斯分布。b越小,越...
2019-02-25 22:23:37 469
原创 特征选择
特征选择和降维,它们是处理高维数据的两大主流技术。维数灾难问题大为减轻往往会降低学习任务的难度在特征选择中,涉及两个关键环节:1)如何获取特征子集 2)如何评价特征子集的好坏我们不可能遍历所有的特征子集,因此使用的是基于贪心的策略。搜索子集有三种方法:前向搜索,后向搜索,双向搜索。在子集评价问题中,可以使用信息增益作为评价准则。将特征子集搜索机制与子集评价机制相结合,即可得...
2019-02-24 22:05:18 1039
原创 机器学习中防止过拟合的方法
过拟合主要由两个原因造成:数据太少、模型太复杂获取更多的数据(1) 从数据源头获取更多的数据(2) 数据增强(3) 根据当前数据集估计数据分布参数,使用该分布产生更多数据:一般不采用此方法,因为估计分布参数的过程会引入误差对于神经网络而言,可以减少网络的层数、神经元的个数Early StoppingL1或L2正则化项Dropout...
2019-02-23 10:55:07 337
原创 激活函数从Sigmoid到各种Relu
在神经网络中,我们使用非线性激活函数,如果采用的是线性激活函数,则还是等价于上一步进行的线性变化,网络再深,也和一层是等价的。 - sigmoid: 11+e−x11+e−x\frac{1}{1+e^{-x}} - tanh: ex−e−xex+e−xex−e−xex+e−x\frac{e^x-e^{-x}}{e^x+e^{-x}} - relu: max(0,x)max(0,x)...
2019-02-11 22:11:35 2076
原创 Dropout与DropConnect
为了防止模型过拟合,dropout是一种trick,之前提到Batch Normalization的使用可以不必再使用dropout,但是我们还是有必要温习下什么是dropout。Dropoutdropout在全连接层使用。在训练阶段,对于每个节点,以p概率将其输出值保留,以1-p概率将其输出值乘以0。在测试阶段,输出结果要乘以p。原因是:保持训练阶段和测试阶段的期望值相同。训练阶段,对于每个...
2019-02-02 20:28:47 3283 2
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人