Math
pyxiea
双鸭山大学研究生,对深度学习、自然语言处理、推荐系统感兴趣
展开
-
函数等值线与Hessian矩阵的关系
参考:https://www.zhihu.com/question/24623031以及花书4.3节《基于梯度的优化方法》当我们的函数具有多维输入时,二阶导数也有很多。我们可以将这些导数合并成一个矩阵,称为Hessian矩阵。对于函数f:Rm→Rnf: \Bbb R^m \rightarrow \Bbb R^nf:Rm→Rn,Hessian矩阵H\boldsymbol HH定义为:Hi,j=...原创 2020-02-29 12:00:50 · 1023 阅读 · 1 评论 -
后验概率与似然函数的区别与联系
似然函数:给定输出xxx时,关于参数θθθ的似然函数L(θ∣x)L(θ|x)L(θ∣x)(在数值上)等于给定参数θθθ后变量XXX的概率:L(θ∣x)=P(X=x∣θ)L(θ|x)=P(X=x|θ)L(θ∣x)=P(X=x∣θ)[1]^{[1]}[1]。因此[2]和[3]也将似然函数直接写成P(x∣θ)P(x|θ)P(x∣θ)。后验概率是在给定证据XXX后,参数θθθ的概率: p(θ∣X)p(...原创 2020-01-17 17:58:26 · 2526 阅读 · 0 评论 -
熵、交叉熵、KL散度、JS散度、推广的JS散度公式、互信息
下面用求和符号展开是针对离散分布而言的,对于连续分布,使用积分代替求和。熵熵,又称香农熵(Shannon entropy),一个分布ppp的熵记为H(p)H(p)H(p),计算公式为:H(p)=Ep[log(p)]=∑i=1np(xi)log1p(xi)H(p)=\bf E_{\it p} [\it log(p)]=\sum_{i=1}^n p(x_i)log\frac{1}{p(x_i...原创 2019-11-14 22:34:13 · 1045 阅读 · 0 评论 -
SVD为什么能降维、压缩、去噪
SVD的含义以及存在性证明对于任意的矩阵Am×nA_{m\times n}Am×n, 我们都可以找到正交矩阵Um×mU_{m\times m}Um×m、Vn×nTV^T_{n\times n}Vn×nT和矩阵Σm×n\Sigma _{m\times n}Σm×n使得Am×n=Um×mΣm×nVn×nTA_{m\times n}=U_{m\times m}\Sigma _{m\times ...原创 2019-11-07 12:38:27 · 2484 阅读 · 0 评论 -
Gumbel Max与Gumbel Softmax演示动画
Gumbel Max以及Gumbel Softmax的理论证明见: 漫谈重参数:从正态分布到Gumbel Softmax我用js写了一个利用Gumbel Max来对离散分布进行重参数化的过程,地址: Gumbel Max Demo效果如下:可以从理论上证明,利用Gumbel Max得到的分布等价于原来的离散分布。实验也验证了这点,从Demo可以看出,随着采样数量的增大,两个分布的KL散度的...原创 2019-09-19 20:11:55 · 1464 阅读 · 0 评论