本篇博客是对[1]中习题2.3的证明。首先给出凸壳与线性可分的定义:
凸壳
定义1:设集合
S⊂Rn
,是由
Rn
中的
k
个点所组成的集合,即
注: 看懂定义忽略该段,对这个定义进行一个小提示,首先凸壳是一个集合,对于所有可能的 λi,i=1,2,⋯,k 只要满足 ∑ki=1λi=1 ,那么 x=∑ki=1 即为凸壳中的元素。凸壳可以用二维的图形可以表示如下
线性可分
定义2:给定一个数据集
=====================================================
定理
样本集线性可分的充分必要条件使正实例点集构成的凸壳与负实例点集所构成的凸壳互不相交。
必要性:线性可分->凸壳不相交
设数据集
T
中的正例点集为
充分性:凸壳不相交->线性可分
设数据集
T
中的正例点集为
设 x+∈conv(S+) , x−∈conv(S−) 且 dist(x+,x−)=dist(conv(S+),conv(S−)) 。则对于任意正例点 x 有
则对于所有的正例点 x (易知
若 dist(x,x−)≤dist(x,x+) ,则 dist(x,x−)≤dist(x,x+)≤dist(x−,x+) ,那么 dist(S+,S−)<dist(x+,x−) (注:证明过程见下方),推出矛盾。因此对所有的正例点, w⋅x+b>0 成立。同理,对所有的负例点, w⋅x+b<0 成立。至此,充分性得证。
补充:用反正法证明
dist(x,x−)>dist(x,x+)
证明:若
dist(x,x−)≤dist(x,x+)
,则存在
t=(x−−x+)⋅(x−x+)||x−x+||22
,令
x′=tx+(1−t)x+
,则
(x−−x′)⋅(x+−x)=0
。易知
t≤1
先证明
0<t
,我们可以将
x,x+,x−
看作是空间中三个不同的点,三条边的长度分别为
dist(x,x+),dist(x,x−),dist(x−,x+)
有上文知
dist(x,x+)≥dist(x,x−)≥dist(x−,x+)
根据三角形的大边对应大角这一特性,很容易可以看出
x+−x
与
x+−x−
之间的夹角小于90度,因此
t>0
。那么
dist(x′,x−)<dist(x+,x−)
,有因为
x′
必在
conv(S+)
内部,所以推出矛盾。
[1]:李航. 统计学习方法[M]. 清华大学出版社, 2012.