- 博客(3)
- 资源 (1)
- 收藏
- 关注
原创 Optimizer(BGD,SGD,MBGD,Momentum,NAG,Adagrad,Adadelta,RMSprop,Adam)详解
一、optimizer 算法介绍1、Batch Gradient Descent(BGD)BGD采用整个训练集的数据来计算 cost function 来进行参数更新。θ=θ−α⋅∇θJ(θ)\theta = \theta - \alpha \cdot \nabla_{\theta}J(\theta)θ=θ−α⋅∇θJ(θ)for i in range(iteration): ...
2019-02-27 12:14:50 414
原创 交叉熵(cross entropy)与相对熵(relative entropy,KL divergence)的理解
交叉熵(cross entropy)交叉熵在机器学习中的地位十分重要,常在Logistic回归或者神经网络中作为Loss Function来使用,下面先详细谈一谈交叉熵的定义。假设现在有关于样本集的两个概率分布p(x)p(x)p(x)和q(x)q(x)q(x),其中p(x)p(x)p(x)为真实分布,q(x)q(x)q(x)为非真实的分布(可以理解为我们通过该样本集训练得到的分布)。如果我们用...
2019-02-21 12:11:12 1033
原创 熵、条件熵、联合熵、互信息的理解
熵在信息论中,熵(entropy)是表示随机变量不确定性的度量,如果一个事件是必然发生的,那么他的不确定度为0,不包含信息。假设XXX是一个取有限个值的离散随机变量,其概率分布为:P(X=xi)=piP(X=x_i)=p_iP(X=xi)=pi则随机变量XXX的熵定义为:H(X)=−∑i=1npilog(pi)H(X)=-\sum_{i=1}^np_ilog(p_i)H(X)=−i=1...
2019-02-20 20:27:02 5713
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人