Review
3 steps of machine learning
Step1: function set
Step2:Goodness of a function
似然函数只需要将每一个点产生的概率相乘即可,注意,这里假定是二元分类,class 2的概率为1减去class 1的概率
由于L ( w , b ) 是乘积项的形式,为了方便计算,我们将上式做个变换:
这样式子进一步改写:
如果是上面的例子就会是:(目的就是为了统一格式)
现在已经有了统一的格式,我们就可以把要minimize的对象写成一个summation的形式:
Step 3: Find the best function
最终结果,也就是gradient descent每次update只需要做::
现在你的update取决于三件事:
1.learning rate
2.,来自于data
3.,代表function的output跟理想target的差距有多大,如果离目标越远,update的步伐就要越大
Logistic Regression V.s. Linear Regression
我们可以把逻辑回归和之前将的线性回归做一个比较
compare in step1
compare in step2
compare in step3
Logistic Regression + Square error?
综上,尽管square error可以使用,但是会出现update十分缓慢的现象,而使用cross entropy可以让你的Training更顺利
Discriminative v.s. Generative
Logistic Regression的方法,我们把它称之为discriminative的方法;而我们用Gaussian来描述posterior Probability这件事,我们称之为Generative的方法
原因
example
Generative model和discriminative model的差别就在于,Generative的model它有做了某些假设,假设你的data来自于某个概率模型;而Discriminative的model是完全不作任何假设的
Conclusion
Multi-class Classification
之前讲的都是二元分类的情况,这里讨论一下多元分类问题,其原理的推导过程与二元分类基本一致
Softmax
softmax的意思是对最大值做强化,因为在做第一步的时候,对z取exponential会使大的值和小的值之间的差距被拉得更开,也就是强化大的值
multi-class classification的过程
Limitation of Logistic Regression
因为Logistic Regression在两个class之间的boundary就是一条直线,但是在这个平面上无论怎么画直线都不可能把图中的两个class分隔开来
Feature Transformation
如果坚持要用Logistic Regression的话,有一招叫做Feature Transformation,原来的feature分布不好划分,那我们可以将之转化以后,找一个比较好的feature space,让Logistic Regression能够处理。