Classification:Probabilistic Grnrtative Model(概率生成模型)
总结:
- 老师通过 Credit Scoring, Medical Diagnosis, Handwritten character recognition, Face recognition四个案例引入Classification的概念,之后通过 input seven feature , find the type of Pokeman 这个案例介绍了 二元分类的使用过程
- 老师先假设使用Regression的方法进行解题, 发现出现了问题;之后以binary classification为例,给出了解题的按个步骤, step1:define model(function),step2:loss function,step3:find best function。之后以从两个盒子中取出一个球,该球是从box 1取出的蓝球的概率为切入点,以box类比the type of Pokman, 以球类比Pokman,推出P(C1|x)即(g(x))的表达式,之后需要求出P(C1),P(C2),求P(x|C1)和P(x|C2)的时候,引入了Gaussian Distribution(高斯分布), 之后介绍了高斯分布的原理,之后根据现有的79个 training data的最大似然推算出class1和class2的μ 和 Σ, 之后得到P(C1|x)
- 在2维空间和7维空间testing后,发现z正确率较低,需要修正Model。修正Model,不同的Class使用不相同的μ和相同的 Σ,之后根据现有的两个Class中的所有points再次推算出μ1 ,μ2 和 Σ,从而再次得到P(C1|x)和P(C2|x),发现分界线是线性,此时在2维空间testing后正确率仍是54%,但是在7维空间testing后正确率是73%
- 之后老师进行了拓展,对P(C1|X)进行了代入简化,得到的结果说明P(C1|x)是一个线性关系
下面是详细内容:
1.引入
Classifiaction:
Example Application:(案例应用)
数据化:
the feature of Pokman
2.应用
2.1 How to do Classification?
如果使用 Regression:
2.2 Ideal Alternative(理想选择)
先以从盒子中取球举例:
两个盒子为两个Class
回到Pokman Example, 预先准备:
概率分析:
假设所有的points都是通过高斯分布计算出来的, 通过现有的79个points推算背后的高斯分布:
进一步解释高斯分布的概念:
不同的μ, 相同的Σ
相同的μ, 不同的Σ
回到Pokman Example:
最大似然:
根据最大似然确定高斯分布的μ 和 Σ:
不同的Class得出不同的μ 和 Σ:
2.3 根据得到的P(C|x)进行Classification
得到结果,testing后发现误差较大:
3.Modifying Model
修正Model:
重新推算μ 和 Σ:
得到结果,分界线是线性的:
7维空间testing后73%的正确率
第三步:find the best function:
4. 拓展
4.1 Probability Distribution(概率分布)
用自己喜欢的分布(不一定用高斯)
4.2 回到案例, Posterior Probability
后验概率,对P(C1|x)进行简化:
4.3 进行数学推导
代入:
运算:
简化:
发现P(C1|x)是一个线性关系