![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习
文章平均质量分 94
最通俗的语言讲解机器学习中的各种问题
66Kevin
英国Computer Science在读本科,记录学习cs的一点一滴,最通俗的语言讲述神奇的计算机科学,计算机小白的进化史
展开
-
Batch Norm和Dropout问题大总结
文章目录1. 为什么训练时要保证每层的方差一致?2. 什么是Covariate Shift现象?3. Batch Norm中为什么归一化后还要引入γ\gammaγ和β\betaβ?4. Batch Norm训练和测试的区别5. 为什么Dropout后需要Rescale?6. dropout与Batch Norm联合使用会产生哪些问题?7. 如何减轻该状况?1. 为什么训练时要保证每层的方差一致?每层的方差保持一致可以减缓梯度消失或爆炸。简单的说,神经网络的误差反向传播,忽略激活函数的偏导数时,相当于自后原创 2021-05-21 16:56:55 · 1082 阅读 · 0 评论 -
机器学习中常见的编码形式
文章目录一. 常见的特征类型二. 编码2.1 序号编码(Ordinal Encoding)2.2独热编码(One-hot Encoding)2.3 标签编码 (Label Encoding)2.4 频数编码(Frequency Encoding/Count Encoding)2.5 目标编码(Target Encoding)一. 常见的特征类型一般特征可以分为两大类特征,连续型和离散型特征。而离散型特征既有是数值型的,也有类别型特征。例如性别(男、女)、成绩等级(A、B、C)等等。连续型特征的原始形态就原创 2021-04-05 15:15:24 · 4896 阅读 · 5 评论 -
神经网络中batch_size,epoch,batch,iteration/step的区别
我们知道,简单来说,深度学习就是很深很深的神经网络(这一说法并不准确,但姑且让我们这么说),也就是说,有很多层,每层可能有很多神经元,结构也可能比较复杂。然后相应的,数据集也可能比较大。那跑一遍(迭代)会比较慢。所以人们就想出了一个变通的办法,就是每次只使用数据集中的部分样本,这个数目就称为batch_size.虽然只使用了部分样本,但很多时候已经足以优化权重,降低损失函数了。这样训练效率高很多,训练时间也能缩短不少。不过这样一来,一次迭代就不一定完整跑遍数据集中的所有样本了。那在比较的时候,就不太方便原创 2020-11-08 13:19:54 · 1549 阅读 · 0 评论 -
python中LabelEncoder和OneHotEncoder处理数据
在处理数据时,一些变量的值是非数值型的,如中文或者英文等,在python中,很多时候,上述的数据类型是不能带入模型的,这就需要我们进行处理。常见的处理方式有两种:Onehot Encoding:即sklearn.preprocessing中的OneHotEncoder。简单来说OneHotEncoder用于将表示分类的数据扩维:LabelEncoder:即sklearn.preprocessing中的LabelEncoder。简单来说 LabelEncoder 是对不连续的数字或者文本进行编号O原创 2020-11-04 17:38:28 · 954 阅读 · 0 评论 -
ReLu及其变体如何解决非线性问题
我们知道线性方程可以做到,将一个平面划分成两个:线性函数−5−2∗x+y-5-2*x +y−5−2∗x+y将一个平面分为两部分,使用Relu后,分类边界不再是横穿x-y位置的直线。将x轴以下的部分切掉,从而得到上面右侧图中所示的角度区域。我们加入了四个relu函数,最终的输出是通过应用一个线性模型将所有这些角区域加到一起来构建的,看起来就像是平面折叠了一样。下面显示了这样一个输出决策区域的示例:现在可以想象构建一个有20 ~ 30 Relus的网络,并得到如下所示的分类边界:所以虽然ReLu原创 2020-07-27 00:48:06 · 1289 阅读 · 1 评论 -
机器学习中的鲁棒性
机器学习算法鲁棒性并没有严格的量化的定义。鲁棒性,robustness,顾名思义,就是健壮的意思。一个人健壮,就是小毛小病,不碍事;不健壮,就是病来如山倒。一个人健壮,就是晴天好,雨天好,冬天好,夏天好,不会突然莫名其妙地不舒服了。机器学习模型的鲁棒性主要是两个方面:小毛小病可以看作是数据中的错误点、或者误差。难免的,训练集中常常有些数据是有错位的,类似的,预测样本中也有可能有一些错误。一个具有鲁棒性的机器学习模型能够不被这些训练集中的错误数据影响,依然能绕过浮云看本质。常常训练样本和预测样原创 2020-07-27 00:04:13 · 10473 阅读 · 0 评论 -
交叉熵损失函数整理
文章目录一.交叉熵函数的由来(推导)二.交叉熵函数直观理解三.交叉熵函数求导3.1Sigmoid + Cross-entropy3.2SoftMax + Cross-entropy四.交叉熵与SoftMax函数一.交叉熵函数的由来(推导)我们一共有m组已知样本, (x(i),y(i))(x^{(i)},y^{(i)})(x(i),y(i))表示第i组数据及其对应的类别标记, 其中x(i)=(1,x1i,x2i,x3i…xpi)x^{(i)} = (1, x^{i}_1,x^{i}_2,x^{i}_3…x原创 2020-07-26 18:44:02 · 4102 阅读 · 0 评论 -
多种梯度下降变体的对比:Batch gradient descent、Mini-batch gradient descent 和 stochastic gradient descent
文章目录一. 批量梯度下降(Batch gradient descent)二. 随机梯度下降法(Stochastic Gradient Descent)一. 批量梯度下降(Batch gradient descent)批量梯度下降(Batch gradient descent),是梯度下降法最常用的形式,具体做法也就是在更新参数时使用所有的样本来进行更新。θ=θ−η⋅∇θJ(θ) θ = θ − η · ∇θJ(θ) θ=θ−η⋅∇θJ(θ)由于我们需要计算整个数据集的梯度以仅执行一次更新,因此批量原创 2020-07-20 20:03:18 · 640 阅读 · 0 评论 -
对反向传播中梯度消失的全面理解
文章目录一.神经网络如何传播?1.1 正向传播1.2 反向传播二.梯度消失如何产生?2.1 数学角度2.2 激活函数角度三.结论一.神经网络如何传播?1.1 正向传播如下图所示,两个输入值X1X_1X1和X2X_2X2,以第一层的第一个神经元f1(e)f_1(e)f1(e)为例。正向传播先经过线性变换e=x1w1+x2w2e=x_1w_1+x_2w_2e=x1w1+x2w2,...原创 2020-05-05 04:11:09 · 1869 阅读 · 0 评论 -
一文弄懂为什么深度学习需要激活函数
文章目录一.神经网络基本结构一.神经网络基本结构原创 2020-05-01 23:05:15 · 1502 阅读 · 0 评论