Classification
regression方法不太使用于classification,因为regression希望output值接近于1或-1,因此也会惩罚那些比较大的值,会导致决策面偏离最佳的classification boundary。
Naive Bayes(Generative)
我们可以用下面的决策函数和损失函数来实现classification
Maximum Likelihood
计算出高斯分布的mean和covariance
为了减少参数,防止出现过拟合,当我们考虑一个二分类模型时,这两个高斯分布的Σ是共用的
当共用同样的Σ时,可以称为linear model,用不同的Σ时,则是nonlinear model。
基本步骤
通过数学推导可以知道,我们需要找的model是一个线性的model(当Σ取同样的值时)
直觉是,我们可以直接忽略上面的概率分布参数,直接计算w和b,因此提出了Logistics Regression
Logistics Regression(Discriminative)
Step 1:Function Set
sigmoid方程输出的值就是概率,介于0到1之间
线性regression的输出是z,因此输出值可能是任意值
Step2:Goodness of a Function
极大似然估计的计算方法,首先取对数,简化计算,然后将其改为分段函数的形式,根据data的label分段,实际上就是两个伯努利分布的交叉熵,这样当training data是class1或class2时,其中一项都会变为0,也就是变成其中一个class的交叉熵
Step3:Find the best function
最终的logistics regression的梯度下降参数更新方程与linear regression 一样
损失函数的选择
对于线性回归来说,Square error是很正确的;但对logistics regression来说,是不合适的,会出现不管在那个点上微分值都很小,因此梯度下降时移动速度非常慢,因此也无法判断自己是距离目标很近还是很远,
生成模型和判别模型的优劣
Multi-class Classification
softmax:对最大值做强化
limitation of logistics regression
Feature Transformation:使用特征转换将无法在特征空间中区分的数据转换到另一个可以区分的空间
logistics regression的链接可以构成neural network