2019年02月_yqmind

原创 LSTM和GRU

GRU和LSTM都是为了处理RNN梯度消失问题而设计的，可以学习到长距离依赖。

2019-02-27 14:46:04 300

原创 Regularization

概述L1和L2正则项本质上是对参数进行先验分布假设，具体来说L1对应拉普拉斯先验，L2对应高斯先验。ML与MAP的不同maximum likelihood (ML) 极大似然估计:MAP (maximum a posterior) 最大后验概率估计:即p(θ)p(\theta)p(θ)进行了先验假设。拉普拉斯分布L1正则化对应假设每个参数服从均值为0的拉普拉斯分布。b越小，越...

2019-02-25 22:23:37 469

原创特征选择

特征选择和降维，它们是处理高维数据的两大主流技术。维数灾难问题大为减轻往往会降低学习任务的难度在特征选择中，涉及两个关键环节：1）如何获取特征子集 2）如何评价特征子集的好坏我们不可能遍历所有的特征子集，因此使用的是基于贪心的策略。搜索子集有三种方法：前向搜索，后向搜索，双向搜索。在子集评价问题中，可以使用信息增益作为评价准则。将特征子集搜索机制与子集评价机制相结合，即可得...

2019-02-24 22:05:18 1039

原创机器学习中防止过拟合的方法

过拟合主要由两个原因造成：数据太少、模型太复杂获取更多的数据(1) 从数据源头获取更多的数据(2) 数据增强(3) 根据当前数据集估计数据分布参数，使用该分布产生更多数据：一般不采用此方法，因为估计分布参数的过程会引入误差对于神经网络而言，可以减少网络的层数、神经元的个数Early StoppingL1或L2正则化项Dropout...

2019-02-23 10:55:07 337

原创朴素贝叶斯法

朴素贝叶斯法是生成模型。“朴素”是指什么？特征条件独立假设：用于分类的特征在类确定的条件下是独立的。

2019-02-14 17:34:10 221

原创激活函数从Sigmoid到各种Relu

在神经网络中，我们使用非线性激活函数，如果采用的是线性激活函数，则还是等价于上一步进行的线性变化，网络再深，也和一层是等价的。 - sigmoid: 11+e−x11+e−x\frac{1}{1+e^{-x}} - tanh: ex−e−xex+e−xex−e−xex+e−x\frac{e^x-e^{-x}}{e^x+e^{-x}} - relu: max(0,x)max(0,x)...

2019-02-11 22:11:35 2076

为了防止模型过拟合，dropout是一种trick，之前提到Batch Normalization的使用可以不必再使用dropout，但是我们还是有必要温习下什么是dropout。Dropoutdropout在全连接层使用。在训练阶段，对于每个节点，以p概率将其输出值保留，以1-p概率将其输出值乘以0。在测试阶段，输出结果要乘以p。原因是：保持训练阶段和测试阶段的期望值相同。训练阶段，对于每个...

2019-02-02 20:28:47 3283 2

YQMind的博客