数学基础&&信息论

最新推荐文章于 2024-01-20 20:57:56 发布

bella.ther

最新推荐文章于 2024-01-20 20:57:56 发布

阅读量1.3k

点赞数 1

文章标签：线性代数概率论算法

本文链接：https://blog.csdn.net/weixin_43761502/article/details/112133002

版权

数学基础&&信息论

一、数学基础
二、信息论基础
- 1、熵(Entropy)

提示：一些常忘或容易混淆的数学基础概念及公式，以便日后自己查看

一、数学基础

1、复数

任何复数都可以表示为：
在这里插入图片描述
a和b是实数，而i是虚数单位，它有着性质 $i^2=-1$ 。实数a叫做复数的实部，而实数b叫做复数的虚部。
复平面：横的叫实轴，竖的叫虚轴，然后确定0的位置， $z = a + b i$ 可以用二维空间来表示出来。
共轭复数是z关于实数轴的“对称点”： $z = a - i b$
绝对值（模）：
在这里插入图片描述

数域的具体解说可见文章欧拉公式，复数域的成人礼

2、多项式

$Pn(t) = a0 + a1*t + a2*t^2 + ... +an*t^n$
Pn(t)的一组基为 $1, t, t^2, ... ,t^n]$

多项式相乘公式

1、完全平方
$a+b)^2=a(a+b)+b(a+b)=a^2+2ab+b^2$
$a-b)^2=a(a-b)-b(a-b)=a^2-2ab+b^2$
2、平方差
$a+b)(a-b)=a(a-b)+b(a-b)=a^2-b^2$
3、完全立方
$a+b)^3=(a^2+2ab+b^2)(a+b)=a^3+3a^2b+3ab^2+b^3$
$a-b)^3=(a^2-2ab+b^2)(a-b)=a^3-3a^2b-3ab^2+b^3$
4、立方和差
$a+b)(a^2-ab+b^2)=(a^3-a^2b+ab^2)+(a^2b-ab^2+b^3)=a^3+b^3$
$a-b)(a^2+ab+b^2)=(a^3+a^2b+ab^2)-(a^2b+ab^2+b^3)=a^3-b^3$

3、函数

Gamma 函数

在这里插入图片描述
gamma函数具体解释及推导过程见文章LDA-math - 神奇的 Gamma 函数

克罗内克（Kronecker）函数

又称克罗内克δ函数、克罗内克δ、克罗内克符号，得名于德国数学家利奥波德·克罗内克。克罗内克函数δ(x, y)是一个二元函数，自变量（输入值）一般是两个整数，如果两者相等，则其输出值为1，否则为0，即当 x= y 时, δ(x, y)=1, 否则δ(x, y) = 0 。

4、排列与组合

组合数

组合数的两种表达形式：
在这里插入图片描述
原因参考知乎回答-组合数记法
求解方法常见公式为
其他求解方法见计算组合数的几种方法总结

5、线性变换

在这里插入图片描述
具体解释见知乎问题-如何理解几何重数和代数重数？

6、正交矩阵

正交矩阵（Orthogonal Matrix）是指其转置等于其逆的矩阵。
当 $AA^T = AA^{-1}$ ，即 $A^T = A^{-1}$ 时，A是正交矩阵。
在这里插入图片描述
因为 $AA^T = I$ ，也就是说矩阵的行（或列）向量之间点积等于0（向量正交），行（或列）向量与自身的点积等于1（单位向量），所以正交矩阵又有另一种定义：由行之间两两正交、列之间两两正交的单位向量组成的方阵。
此外，正交矩阵的行列式必定是+1或-1。

7、概率统计

1、伯努利分布 X ~ Bernoulli ( p )
扔一次硬币，随机变量X可取为“正面朝上”
2、二项分布 X ~ Binomial (n, p)
扔n次硬币，随机变量X可取为“正面（反面）朝上为Xi”，n次后共有m次正面朝上
3、贝塔分布 p ~ Beta (a,b)
随机变量p即为二项分布中的概率（参数）p
4、category分布 X ~ Category (p1,p2,…,pk)或X ~ Multinomial (p1,p2,…,pk)
扔一次骰子，随机变量X可取为“正面朝上的点数为某一常量i”，此时k最大取6
对于category分布有时会通过dummy variable Xi来增强理解
5、多项分布 X ~ Multinomial (n, p1,p2,…,pk)
扔n次骰子，随机变量X可取为“某点数朝上为Xi”，n次后共有xi次某点数朝上
6、Dirichlet分布 P ~ Dirichlet (α1,α2,…,αk)
随机变量P即为多项分布中的p1,p2,…,pk
概率统计13——二项分布与多项分布

二、信息论基础

1、熵(Entropy)

定义随机变量x在概率分布p的熵：
在这里插入图片描述
相对熵(Relative Entropy)，也称KL散度 (Kullback–Leibler divergence)。

p(x)，q(x)为随机变量x的两个概率分布，定义p对q的相对熵(KL散度)为：
在这里插入图片描述
KL散度在p(x)和q(x)相同时取到最小值0，两个概率分布越相似，则KL散度越小。

注意， $D (p ∣ ∣ q)! = D (q ∣ ∣ p)$ ，也不满足三角不等式。

假设p(x)是随机变量的真实分布，q(x)是模型预测的分布，则可以用KL散度作为分类问题的Loss Function，通过训练使预测分布接近于真实分布。
交叉熵(Cross Entropy):
在这里插入图片描述
在分类问题中，随机变量的真实分布p(x)是确定的，于是H§也是确定的，相当于一个常数。因此，优化KL散度与优化交叉熵等价，这也是为什么用交叉熵作为分类问题损失函数的原因。
以上引自熵，交叉熵，KL散度公式与计算实例

bella.ther

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
数学基础&&信息论

提示：一些常忘或容易混淆的数学基础概念及公式，以便日后自己查看数学相关多项式线性变换多项式Pn(t) = a0 + a1t + a2t^2 + … +an*t^n他的一组基为[1, t, t^2, … ,t^n]线性变换这里是引用；引自知乎问题-如何理解几何重数和代数重数？知乎问题-如何理解几何重数和代数重数？...
复制链接

扫一扫