统计学习中的Kernel Function
0.引入
假设随机变量XXX来自某个未知分布F(X)F(X)F(X) , 我们有一组XXX的抽样观测: x1,...xnx_1,...x_nx1,...xn .
我们的问题是: 该如何估计它背后密度函数f(x)f(x)f(x) ?
1. Kernel density estimation(无监督学习)
1.1思想
我们已经假设分布函数为F(x)F(x)F(x) , 密度函数为f(x)f(x)f(x).
估计F(x)F(x)F(x)的朴素想法就是用样本的经验分布Fn(x)F_n(x)Fn(x)去估计F(x)F(x)F(x),这是因为 根据格里文科定理,我们知道 当样本容量n→∞n→∞n→∞时,Fn(x)F_n(x)Fn(x)以概率1 一致收敛于F(x)F(x)F(x).
根据定义, Fn(x)=1n∑i=1nI(xi≤x)F_n(x)=\frac{1}{n}\sum_{i=1}^nI(x_i\le x)Fn(x)=n1∑i=1nI(xi≤x)
下面考虑我们的估计目标f(x)f(x)f(x) , 我们知道密度函数是分布函数的导数, 自然地我们有:f(x)=limh→0F(x+h)−F(x−h)2hf(x)=lim_{h\to 0 \frac{F(x+h)-F(x-h)}{2h} }f(x)=limh→02hF(x+h)−F(x−h)
将F(x)F(x)F(x)的估计Fn(x)F_n(x)Fn(x)带入: f(x)≈Fn(x+h)−Fn(x−h)2h=1n∑i=1nI(x−h≤xi≤x+h)2h=1n∑i=1n121hI(x−h≤xi≤x+h)=1n∑i=1n121hI(−1≤xi−xh≤1)=1n∑i=1n121hI(∣xi−xh∣≤1)f(x)≈ \frac{F_n(x+h)-F_n(x-h)}{2h} =\frac{\frac{1}{n}\sum_{i=1}^nI(x-h\le xi\le x+h)}{2h}=\frac{1}{n}\sum_{i=1}^n\frac{1}{2}\frac{1}{h}I(x-h\le x_i \le x+h)=\frac{1}{n}\sum_{i=1}^n\frac{1}{2}\frac{1}{h}I(-1\le \frac{x_i-x}{h} \le 1)=\frac{1}{n}\sum_{i=1}^n\frac{1}{2}\frac{1}{h}I(|\frac{x_i-x}{h}| \le 1)f(x)≈2hFn(x+h)−Fn(x−h)=2hn1∑i=1nI(x−h≤xi≤x+h)=n1i=1∑n21h1I(x−h≤xi≤x+h)=n1i=1∑n21h1I(−1≤hxi−x≤1)=n1i=1∑n21