Why least squares so powerful?
考虑到翻译会有不严谨的地方,很多地方我直接使用英语描述。
1. Residual Distribution
- 通常,我们使用Generalized Gauss-Markov假设。假设输出变量的残差都是zero-mean,服从高斯分布,同时他们之间的关系使用covariance matrix表示(对角线是变量的variance,非对角线则表示了不同变量之间的纠缠关系)。
- 但是明显的是,这样的假设并不一定是正确的。我们面临的可能是非高斯的分布。
在下面我们会看到:
- 对高斯误差的优化,其实是最小二乘优化。
- 对非高斯误差的优化,也可以使用最小二乘获得很好的近似。
2. 不同噪音下线性系统的ML
下面我们分别考虑不同的噪音影响下的,Maximum likelihood estimation的不同形式。
我们列举了高斯噪音,拉普拉斯噪音以及均匀分布噪音。
考虑高斯噪音下的线性系统:
linear measurement model:
matrix form:
Y = A X + ν Y = AX + \nu Y=AX+ν
component form:
y i = a i T x + ν i y_{i} = a_{i}^{T}x + \nu_{i} yi=aiTx+νi
2.1 Maximum likelihood Esimation
对系统,我们优化Maximum log likelihood :
m a x i m i z e ( o v e r x ) log p x ( y ) maximize \ (over \ x) \ \ \log p_{x}(y) maximize (over x) logpx(y)
m a x i m i z e ( o v e r x ) l ( x ) = ∑ i = 1 m log p ( y i − a i T x ) maximize \ (over \ x) \ \ l(x) = \sum_{i=1}^{m} \log p(y_{i} - a_{i}^{T}x) maximize (over x) l(x)=i=1∑mlogp(y