[机器学习]Lecture 1：Regression，Pokemon classification，Logistic Regression

zzz_qing

已于 2023-04-05 17:33:42 修改

阅读量104

点赞数

文章标签：机器学习人工智能

于 2023-04-05 17:33:40 首次发布

本文链接：https://blog.csdn.net/zzz_qing/article/details/129973747

版权

Regression

Pokemon classification

How to do Classfication

Logistic Regression

Logistic Regression步骤：

Logistic Regression和Linear Regression对比：

Cross Entropy v.s. Square Error

Discriminative v.s. Generative

Regression

Step 1: Model
Step 2: Goodness of Function
Step3: Best Function

这一节主要讲了一个宝可梦的实例，没有较多的理论知识。Gradient Descent部分和前面笔记的内容一致。

Pokemon classification

How to do Classfication

Training data for Classification. 这里可能会有人用Regression来解决这个Classification的问题，但是一个Function在Regression中被判断为好的Function，它做classfication的效果不一定是最好的。比如下图，绿色线分类效果最好，但是使用Regression的话，Regression会选择紫色线为它的Function，所以不建议用Regression来解决Classification的问题。

那如何做Classfication呢，下图是Ideal Alternatives，以一个二分类为例：

接下来还是以宝可梦分类为例：

每只宝可梦都有它的一些特征值，把这些特征值组成一个向量，这个向量就可以用来描述这个宝可梦。这个vector称之为一个feature。接下来的步骤见下面三张图，

实际实验中，对宝可梦在二维空间上的分类效果并不好，Testing data上只有47%的accuracy。每个宝可梦都是用七个数值来表示，所以每个宝可梦都是存在于七维空间中的一个点，那么在七维空间上对宝可梦进行分类，仍然只有54%的accuracy，效果不佳，下面进行modifying model。

在上面的model中，每一个Gaussian都有自己的mean跟自己的variance，如下图：

但是这种比较少见，因为这样model参数会很多，容易造成overfitting。常见的做法是不同的class会使用同一个covariance的matrix。

modifying model计算过程如下图：

在七维空间下，分类的accuracy由54%进步到73%，下图左边是原始的model，它的分界线不是直线，而右边是modifying后的model，它是一个linear的model。

总结，上面提到的机率模型，有三个步骤，如下图：

Posterior Probability（后验概率）

对z进行变形，可以明显看出modifying后的model是一个linear的model。

Logistic Regression

注：本小节和Pokemon classification相关联

Logistic Regression步骤：
Step 1: Function Set

Step 2: Goodness of a Function

交叉熵（Cross Entropy），在step2中，Cross Entropy就是我们要去minimize的对象。

Step 3: Find the best function

w的update取决于三个因素：learning rate, xi, y^n\head-f(x^n)

Logistic Regression和Linear Regression对比：

Cross Entropy v.s. Square Error

选择Square Error在训练中不容易得到好结果，因为离目标距离非常近和非常远的时候，参数update的速度都非常慢。而Cross Entropy在离目标很远的时候，参数update的速度很快，使用Cross Entropy会让training顺很多。

Discriminative v.s. Generative

Logistic Regression的方法称为discriminative的方法

用Gaussian描述posterior probability这件事称为generative的方法

discriminative model常常会比generative model表现得更好，它两差别在于generative model有做某些假设。

Benefit of generative model:

With the assumption of probability distributionless training data is needed

With the assumption of probability distributionmore robust to the noise

Priors and class-dependent probabilities can beestimated from different sources

Limitation of Logistic Regression——boundary只能是一条直线，有些情况下无法分类

解决办法——Feature Transformation，过程如下：

把多个Logistic Regression前后相连起来。

把每一个Logistic Regression叫做一个Neuron，把这些Logistic Regression串起来组成的network，就叫做Neuron Network。

zzz_qing

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
[机器学习]Lecture 1：Regression，Pokemon classification，Logistic Regression

目录RegressionPokemon classificationHow to do ClassficationLogistic RegressionRegressionStep 1: Model Step 2: Goodness of Function Step3: Best Function这一节主要讲了一个宝可梦的实例，没有较多的理论知识。Gradient Descent部分和前面笔记的内容一致。Pokemon classification
复制链接

扫一扫