数据分类过程中P(classification|data)与P(data|classification)的区别与优劣

Number of dp modules in each interval in the sample data set

Feature I 1 I_1 I1 I 2 I_2 I2
x 1 x_1 x138
x 2 x_2 x274

Number of ndp modules in each interval in the sample data set

Feature I 1 I_1 I1 I 2 I_2 I2
x 1 x_1 x11015
x 2 x_2 x21312

注: x i I j x_i^{I_j} xiIj为,在特征 x i x_i xi取值为 I j I_j Ij时的样本数量。比如 x 1 I 2 x_1^{I_2} x1I2,其代表特征 x 1 x_1 x1在取值为 I 2 I_2 I2的样本数量,则在dp module中, x 1 I 2 = 8 x_1^{I_2}=8 x1I2=8,在ndp module中, x 1 I 2 = 15 x_1^{I_2}=15 x1I2=15

法一:

P ( d p ∣ x 1 I j ) = d p N ( x i I j ) d p N ( x i I j ) + n d p N ( x i I j ) P(dp|x_1^{I_j})=\frac{dpN(x_i^{I_j})}{dpN(x_i^{I_j}) + ndpN(x_i^{I_j})} P(dpx1Ij)=dpN(xiIj)+ndpN(xiIj)dpN(xiIj)
P ( d p ∣ x 1 I 2 ) = N ( d p , x 1 I 2 ) N ( x 1 I 2 ) = N ( d p , x 1 I 2 ) N ( d p , x 1 I 2 ) + N ( n d p , x 1 I 2 ) = 8 8 + 15 = 8 23 \begin{aligned} P(dp|x_1^{I_2})&=\frac{N(dp,x_1^{I_2})} {N(x_1^{I_2})}\\ &=\frac{N(dp,x_1^{I_2})} {N(dp,x_1^{I_2}) + N(ndp,x_1^{I_2})}\\ &=\frac{8}{8+15}\\ &=\frac{8}{23} \end{aligned} P(dpx1I2)=N(x1I2)N(dp,x1I2)=N(dp,x1I2)+N(ndp,x1I2)N(dp,x1I2)=8+158=238
P ( n d p ∣ x 1 I 2 ) = N ( n d p , x 1 I 2 ) N ( x 1 I 2 ) = N ( n d p , x 1 I 2 ) N ( d p , x 1 I 2 ) + N ( n d p , x 1 I 2 ) = 15 8 + 15 = 15 23 \begin{aligned} P(ndp|x_1^{I_2})&=\frac{N(ndp,x_1^{I_2})} {N(x_1^{I_2})}\\ &=\frac{N(ndp,x_1^{I_2})} {N(dp,x_1^{I_2}) + N(ndp,x_1^{I_2})}\\ &=\frac{15}{8+15}\\ &=\frac{15}{23} \end{aligned} P(ndpx1I2)=N(x1I2)N(ndp,x1I2)=N(dp,x1I2)+N(ndp,x1I2)N(ndp,x1I2)=8+1515=2315
P ( d p ∣ x 1 I 2 ) < P ( n d p ∣ x 1 I 2 ) P(dp|x_1^{I_2})<P(ndp|x_1^{I_2}) P(dpx1I2)<P(ndpx1I2) x 1 I 2 x_1^{I_2} x1I2被判别为 n d p ndp ndp

法二:

P ( x i I j ∣ d p ) = d p N ( x i I j ) d p N ( x i ) P(x_i^{I_j}|dp)=\frac{dpN(x_i^{I_j})}{dpN(x_i)} P(xiIjdp)=dpN(xi)dpN(xiIj)
P ( x 1 I 2 ∣ d p ) = N ( d p , x 1 I 2 ) N ( d p , x 1 ) = N ( d p , x 1 I 2 ) N ( d p , x 1 I 1 ) + N ( d p , x 1 I 2 ) = 8 3 + 8 = 8 11 \begin{aligned} P(x_1^{I_2}|dp)&=\frac{N(dp,x_1^{I_2})}{N(dp,x_1)}\\ &=\frac{N(dp,x_1^{I_2})}{N(dp, x_1^{I_1})+N(dp,x_1^{I_2})}\\ &=\frac{8}{3+8}\\ &=\frac{8}{11} \end{aligned} P(x1I2dp)=N(dp,x1)N(dp,x1I2)=N(dp,x1I1)+N(dp,x1I2)N(dp,x1I2)=3+88=118
P ( x 1 I 2 ∣ n d p ) = N ( n d p , x 1 I 2 ) N ( n d p , x 1 ) = N ( n d p , x 1 I 2 ) N ( n d p , x 1 I 1 ) + N ( n d p , x 1 I 2 ) = 15 10 + 15 = 15 25 \begin{aligned} P(x_1^{I_2}|ndp)&=\frac{N(ndp,x_1^{I_2})}{N(ndp,x_1)}\\ &=\frac{N(ndp,x_1^{I_2})}{N(ndp, x_1^{I_1})+N(ndp,x_1^{I_2})}\\ &=\frac{15}{10+15}\\ &=\frac{15}{25} \end{aligned} P(x1I2ndp)=N(ndp,x1)N(ndp,x1I2)=N(ndp,x1I1)+N(ndp,x1I2)N(ndp,x1I2)=10+1515=2515
P ( x 1 I 2 ∣ d p ) > P ( x 1 I 2 ∣ n d p ) P(x_1^{I_2}|dp)>P(x_1^{I_2}|ndp) P(x1I2dp)>P(x1I2ndp), x 1 I 2 x_1^{I_2} x1I2被判断为 d p dp dp

结果分析

对于同一组数据,采用不同的分类方法得到的结果可能是不同的。
但对于上述两种依据概率分类的方法,第二种方法 P ( x i I j ∣ d p ) P(x_i^{I_j}|dp) P(xiIjdp)是一种不可取的方式,因为他切断了类与类之间的关联,只关注数据在类内的分布是不可靠的。
在第二种分类方法中,对于特征 x 1 I 2 x_1^{I_2} x1I2,我们的分类结果 d p dp dp类;但是从数据的总体分布来看:
d p dp dp类中, x 1 I 2 x_1^{I_2} x1I2的频度为8
n d p ndp ndp类中, x 1 I 2 x_1^{I_2} x1I2的频度为15
对于含有特征 x 1 I 2 x_1^{I_2} x1I2的测试样本,从总体数据分布来看,其属于类 d p dp dp的概率为 8 8 + 15 = 8 23 \frac{8}{8+15}=\frac{8}{23} 8+158=238,属于类 n d p ndp ndp的概率为 15 8 + 15 = 15 23 \frac{15}{8+15}=\frac{15}{23} 8+1515=2315,因此该样本更有可能是 n d p ndp ndp类而非 d p dp dp类,与法二结果相悖。
因此数据分析要从总体的数据分布来考虑,而不能只参照类内的数据分布。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值