一、分类器,判别函数和判定面
(1)多分类情况:有很多种方法来表述模式分类器,其中用的最多的是一种判别函数的形式,如果对于所有的,有,则此分类器将这个特征x判为,因此,此分类器可视为一个计算个判别函数并选取与最大判别值对应的类别的网络或机器。
(2)二分类情况:尽管二分类是多分类的一个特例,却通常被单独拿出来研究,有一个专门的名字叫“二分分类器”。它一般不是仿照多分类的情况,如果则判别为,而是用一个简单的判别函数,如果,则判为,否则。
二、正态密度
(1)单变量密度函数:连续的单变量正态密度函数为:
由此可以得到x的期望值(均值,由真个特征空间计算得到)为
得到x的方差为
下面以均值为0,方差为1的高斯分布为例,画出高斯分布图
x=[-4:0.1:4]
z = 1/sqrt(2*pi) * exp(-(x.^2)/2) ;
plot(z)
下面求概率密度函数在[-2,2]上的积分
syms x;
p=int(1/sqrt(2*pi)*exp(-(x.^2)/2),-2,2);
显然,高斯分布图的峰值为,概率密度函数在区间内的积分值为0.9545.
(2)多变量密度函数:连续的多变量正态密度函数为:
这里,x是一个d维列向量,是一个d维均值向量,是一个的协方差矩阵,和分别是其行列式和逆。变量x的期望值为
得到x的方差为
三、正态分布的判别函数
为了求解最小误差分类,我们将判别函数设定为
对于二分类问题,通过令可以确定超平面的位置。
四、例子
已知存在两类的样本,黑色点的坐标为(2,6)(3,4)(3,8)(4,6),红色点的坐标为(1,-2)(3,0)(3,-4)(5,-2)要确定判别分界。
首先,根据以下两式
可以得到和的均值,方差
假设先验概率,根据
得到
解得 ,为一条抛物线。