最小二乘法:
极大似然估计:
信息论:以概率论、随机过程为基本研究工具,研究广义通信系统的整个过程。常见的应用有无损数据压缩(如ZIP文件)、有损数据压缩(如MP3和JPEG)等。
自信息:
当 b=2 时单位为bit,当b = e时单位为nat
信息熵(自信息的期望): 度量随机变量X的不确定性,信息熵越大越不确定
(此处以离散型为例)
计算信息熵时约定: 若,则 。
相对熵 (KL散度):度量两个分布的差异,其典型使用场景是用来度量理想分布和模拟分布之间的差异。
其中 称为交叉熵。
从几何的角度,让全体训练样本经过投影后:
异类样本的中心尽可能远(并非严格投影):
二范数 a :向量a的模长。 a a的模长的平方,相当于a的转置乘以a。
同类样本的方差尽可能小(并非严格方差):
拉格朗日乘子法:
广义特征值:
广义瑞利商: