(1)在前几个课程学习过程中没有发现,后来才突然想到的一个问题是:为什么logistic 回归依然算是线性分类器呢?在logistic回归中,h(x) = g( \theta*x ),而这个g( z ) = 1/(1- exp(-z)),在我的理解中它不应该属于线性分类器了吧。
解释:我们判断一个新的输入样本属于哪一类的时候,是依据 h(x) 与0.5的大小关系来判断的(其实从logistic的画图曲线也可以直接看出),当 h(x) > 0.5 时,判别为1,否则判别为0,等价表示是:当\theta*x > 0 时,判别为1,否则判别为0。我想从这个角度可以很清晰地看出,为什么logistic回归依然被划分为线性分类器。因为本质上它仍然在分类过程中通过在特征平面上画直线(即\theta*x = 0)来判别。理解了这个也就可以更好地理解这节课中SVM画出来的那个超平面(二维里是一条线)。
(2)对函数间隔的理解。
函数间隔的表达式为:
目的是使得函数间隔越大越好,但是缘由是什么呢?老师说这是一种直观的理解,但却不同于几何间隔表示的是图形中的最短距离。我是这样理解的:在h(x)中,假如wT x + b 大于等于零,那么判别h(x)为1,假如wT x + b 小于零则判别为-1. 那这个时候就讲到了自信度(自创哈,“confidence”的意思),假如在训练过程中,对于标签y=1, 那么,wT x + b 远远地大于0的话,那我就更加有信心地说分类是对的;对于y=-1的情况,若果wT x + b 远远地小于0的话,那么我也就更有信心说分类预测是对的。两者都可以用一个式子(即函数间隔的表达式)来表示。目的是使得函数间隔尽可能的大。