目录
Logistic Regression和Linear Regression对比:
Cross Entropy v.s. Square Error
Discriminative v.s. Generative
Regression
- Step 1: Model
- Step 2: Goodness of Function
- Step3: Best Function
这一节主要讲了一个宝可梦的实例,没有较多的理论知识。Gradient Descent部分和前面笔记的内容一致。
Pokemon classification
-
How to do Classfication
Training data for Classification. 这里可能会有人用Regression来解决这个Classification的问题,但是一个Function在Regression中被判断为好的Function,它做classfication的效果不一定是最好的。比如下图,绿色线分类效果最好,但是使用Regression的话,Regression会选择紫色线为它的Function,所以不建议用Regression来解决Classification的问题。
那如何做Classfication呢,下图是Ideal Alternatives,以一个二分类为例:
接下来还是以宝可梦分类为例:
每只宝可梦都有它的一些特征值,把这些特征值组成一个向量,这个向量就可以用来描述这个宝可梦。这个vector称之为一个feature。接下来的步骤见下面三张图,
实际实验中,对宝可梦在二维空间上的分类效果并不好,Testing data上只有47%的accuracy。每个宝可梦都是用七个数值来表示,所以每个宝可梦都是存在于七维空间中的一个点,那么在七维空间上对宝可梦进行分类,仍然只有54%的accuracy,效果不佳,下面进行modifying model。
在上面的model中,每一个Gaussian都有自己的mean跟自己的variance,如下图:
但是这种比较少见,因为这样model参数会很多,容易造成overfitting。常见的做法是不同的class会使用同一个covariance的matrix。
modifying model计算过程如下图:
在七维空间下,分类的accuracy由54%进步到73%,下图左边是原始的model,它的分界线不是直线,而右边是modifying后的model,它是一个linear的model。
总结,上面提到的机率模型,有三个步骤,如下图:
Posterior Probability(后验概率)
对z进行变形,可以明显看出modifying后的model是一个linear的model。
Logistic Regression
注:本小节和Pokemon classification相关联
-
Logistic Regression步骤:
- Step 1: Function Set
- Step 2: Goodness of a Function
交叉熵(Cross Entropy),在step2中,Cross Entropy就是我们要去minimize的对象。
- Step 3: Find the best function
w的update取决于三个因素:learning rate, xi, y^n\head-f(x^n)
-
Logistic Regression和Linear Regression对比:
-
Cross Entropy v.s. Square Error
选择Square Error在训练中不容易得到好结果,因为离目标距离非常近和非常远的时候,参数update的速度都非常慢。而Cross Entropy在离目标很远的时候,参数update的速度很快,使用Cross Entropy会让training顺很多。
-
Discriminative v.s. Generative
Logistic Regression的方法称为discriminative的方法
用Gaussian描述posterior probability这件事称为generative的方法
discriminative model常常会比generative model表现得更好,它两差别在于generative model有做某些假设。
Benefit of generative model:
With the assumption of probability distributionless training data is needed
With the assumption of probability distributionmore robust to the noise
Priors and class-dependent probabilities can beestimated from different sources
- Limitation of Logistic Regression——boundary只能是一条直线,有些情况下无法分类
解决办法——Feature Transformation,过程如下:
把多个Logistic Regression前后相连起来。
把每一个Logistic Regression叫做一个Neuron,把这些Logistic Regression串起来组成的network,就叫做Neuron Network。