输入(X):图像数据,假设这里为10*10的斑马图像。
输出(Y):图像类别,假设为0或者1,可以理解为不是斑马和是斑马两类。
目标:后验概率的最大化,在这里后验概率为P(Y|X),即输入一副10*10的图像,比较P(0|X)与P(1|X)的大小。
如何计算:
假设训练集里有200张图像,为了直观表示,可以列出一个200*(100 + 1)的表格,其中200代表图像数量,100代表10*10是图像的特征,1代表图像的类别。
首先将10*10图像展开为1*100维度,然后计算以下两个公式,这两个公式值比较大即是图像的类别:
这两个公式什么意思呢,P(0)指的是先验概率,意思就是我猜他不是斑马的概率,这个应该在数据里面体现,假如说数据里面有150张图像不是斑马,那么这个P(0) 就是0.75。
P(Xi|0)是似然概率,似然概率可以理解为假设我已知这个不是斑马,那我看看我的特征到底在训练集里面是个什么情况,到底像不像训练数据中的斑马特征。假设X1为第一个像素的灰度值且值为255,那么可以知道P(X1|0)就是指在训练集中,在不是斑马的图像中,第一个像素为255的概率。当然这里很难出现相等,因此可以引入灰度距离度量,反正怎么做都可以。
当然这里的特征直接就使用了灰度特征,实际操作也可以使用其他特征,这个就需要思考了。