昨天听了实验室师兄的报告,会后询问他看 ESL 的事宜。师兄说你不实现书中的算法就是偷懒,想想确实是这样。
P维空间局部回归
多维空间的表达式
如下:
minβ(x0)∑i=1NKλ(x0,xi)(yi−b(xi)Tβ(x0))2Kλ(x0,x)=D(||x−x0||λ)
||⋅|| 是欧几里得范数,也就是 ||X||=|x1|2+...+|xp|2−−−−−−−−−−−−−√ ,书中说分数会趋向于 1 ,我的理解是在高维空间中,各个
点分布稀疏,距离较远,导致||x−x0||λ 趋向于1。这时使用核函数不能有效区分点,起不了多大作用。
在高维空间中,局部回归方法作用不佳。因为当维度升高时,我们没有办法同时满足局部性和客观数量的样本数。局部性是用距离来度量的,保证局部性才能保证低偏差。而数量可观的样本数才能保证低方差。
注: predictor 是指样本变量个数?
p维空间里结构化的局部回归
当维数较大,样本较少时,局部回归作用不佳。如果我们能够对模型的结构做一些假设,或许能够改善这个问题。
结构化的核函数
Kλ,A(x0,x)=D((x−x0)TA(x−x0)λ)
我们可以对 A 施加一些限制,来达到我们的目的。譬如可以增大某一变量的权重。这样讲,我们不仅可以对距离不同的点施加权重,还可以依据需要对不同的属性添加权重。
结构化回归函数
注:方差分析(ANOVA)
方差分析是从观测变量的方差入手,研究诸多变量中哪些控制变量是对观测变量有显著影响的变量。
方差分析的基本思想是:通过分析研究不同来源的变异对总变异的贡献大小,从而确定可控因素对研究结果影响力的大小。
这个坑有点大,要专门学习;
局部相似度
l(β(x0))=∑i=1NKλ(x0,xi)l(yi,xTiβ(x0))
multiclass liner logistic regression
Pr(G=j|X=x)=eβj0+βTjx1+∑J−1k=1eβk0+βTkx
local log-likelihood
这公式还没有想明白 (xi−x0)
∑i=1NKλ(x0,xi){βgi0(x0)+βgi(x0)T(xi−x0)−log[1+∑k=1J−1eβk0(x0)+β(x0)Tk(xi−x0)]}
the fitted posterior probilities
Pr^(G=j|X=x0)=eβ^j0(x0)1+∑J−1k=1eβ^k0(x0)