![](https://img-blog.csdnimg.cn/20201014180756918.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
数学基础
InceptionZ
这个作者很懒,什么都没留下…
展开
-
【数学基础】全相关(Total Correlation)
total correlation 的定义TC(X)捕捉 x 之间相互依赖,且当 x 是独立的时候为0原创 2021-11-27 10:19:50 · 933 阅读 · 0 评论 -
【数学基础】重要性采样
参考文章:https://zhuanlan.zhihu.com/p/41217212转载 2021-11-27 10:00:17 · 92 阅读 · 0 评论 -
【数学基础】互信息(Mutual Information)
参考文章:https://blog.csdn.net/lk7688535/article/details/52529610转载 2021-11-26 15:05:50 · 422 阅读 · 0 评论 -
内积与外积
转载 2021-11-13 16:41:30 · 172 阅读 · 0 评论 -
对数损失和交叉熵损失
对数损失函数(Log loss function)和交叉熵损失函数(Cross-entroy loss funtion)在很多文献内是一致的,因为他们的表示式的本质是一样的。从上述的表达式中看,两者的损失函数本质是一样的,但是这里需要注意的是通常情况下,这两种损失函数所对应的上一层结构不同,log loss经常对应的是Sigmoid函数的输出,用于二分类问题;而cross-entropy loss经常对应的是Softmax函数的输出,用于多分类问题。所以在神经网络中精彩使用cross-entropy作原创 2021-08-20 11:05:00 · 4139 阅读 · 0 评论 -
从伯努利分布到多项式分布
1. 伯努利分布(bernouli distribution)又称0-1分布,指一次随机试验,结果只有两种。也就是一个随机变量的取值只有0和1。其中 p 表示一次伯努利实验中结果为正或为1的概率。概率计算:原创 2020-12-06 11:28:25 · 3237 阅读 · 1 评论 -
极大似然估计与最大后验概率估计(MLE&MAP)
文章目录0. 写在前面1. 频率学派与贝叶斯派1.1 频率学派1.2 贝叶斯派2. 极大似然估计与最大后验估计2.1 极大似然估计(MLE)2.2 最大后验概率估计(MAP)3. 经验风险最小化与结构风险最小化3.1 经验风险最小化3.2 结构风险最小化4. MLE与MAP的联系0. 写在前面最近复习《统计学基础》,在第一张看到了最大似然和最大后验概率估计,突然傻了眼,一点印象都没有,然后决定这次彻底把它弄懂,本文会参考这篇博客。1. 频率学派与贝叶斯派在说极大似然估计(Maximum Likeli原创 2020-10-26 16:18:47 · 452 阅读 · 1 评论 -
高斯混合、多元高斯之间的KL散度
1. 概率密度函数多变量高斯混合分布的概率密度函数为:2. 多元高斯分布和标准正态分布的KL散度3. 两个多元高斯分布之间的KL散度属于2.的一般情况,k是特征的维度4 .两个高斯混合之间的KL散度5. 高斯混合分布和多元高斯分布之间的KL散度只需要将多元高斯混合分布扩展为高斯混合分布即可,重复该多元高斯分布。特别地,当多元高斯分布为正太分布时:其中,M表示component的个数,D表示特征的维数。附录你可以将u2=0,Σ2=I带入上式,得出多元高斯和正原创 2020-06-22 10:30:24 · 2663 阅读 · 2 评论 -
Multinoulli分布
最近看论文遇到如下分布由于之前没见过,很费解,查阅资料弄懂了。它其实伯努利分布的维度扩展举个例子最容易懂:假设现在有事件(通常是互斥的,就是分类问题)A,B,C,D,E,F,G,H,I,J。如果必须给他附上含义,我们假设是动物,即A事件表示狗,以此类推那么,该分布就有一个参数pi,指的是这些事件的先验概率假如P(A)=0.1,P(B)=0.1,…P(I)=0.1则从该分布中采样其实是一个one_hot向量,假如我们采了一个样,发现是狗P(A),则才出来的样本为[1,0,0,0,原创 2020-06-05 22:39:54 · 4102 阅读 · 0 评论 -
公式推导(四)——Softmax的反向传播
参考文献原创 2020-06-02 11:40:10 · 763 阅读 · 1 评论 -
理解JS散度(Jensen–Shannon divergence)
文章目录1.KL散度1.1 KL散度的性质1.2 KL散度的问题即JS散度的引出2. JS散度为什么会出现两个分布没有重叠的现象参考文献1.KL散度用来衡量两个分布之间的差异,等于一个交叉熵减去一个信息熵(交叉熵损失函数的由来)1.1 KL散度的性质非负性(用Jenson‘s inequality 证明)不对称性,即KL(P||Q)≠KL(Q||P)1.2 KL散度的问题即J...原创 2020-05-01 15:49:04 · 70826 阅读 · 11 评论