Number of dp modules in each interval in the sample data set
Feature | I 1 I_1 I1 | I 2 I_2 I2 |
---|---|---|
x 1 x_1 x1 | 3 | 8 |
x 2 x_2 x2 | 7 | 4 |
Number of ndp modules in each interval in the sample data set
Feature | I 1 I_1 I1 | I 2 I_2 I2 |
---|---|---|
x 1 x_1 x1 | 10 | 15 |
x 2 x_2 x2 | 13 | 12 |
注: x i I j x_i^{I_j} xiIj为,在特征 x i x_i xi取值为 I j I_j Ij时的样本数量。比如 x 1 I 2 x_1^{I_2} x1I2,其代表特征 x 1 x_1 x1在取值为 I 2 I_2 I2的样本数量,则在dp module中, x 1 I 2 = 8 x_1^{I_2}=8 x1I2=8,在ndp module中, x 1 I 2 = 15 x_1^{I_2}=15 x1I2=15
法一:
P
(
d
p
∣
x
1
I
j
)
=
d
p
N
(
x
i
I
j
)
d
p
N
(
x
i
I
j
)
+
n
d
p
N
(
x
i
I
j
)
P(dp|x_1^{I_j})=\frac{dpN(x_i^{I_j})}{dpN(x_i^{I_j}) + ndpN(x_i^{I_j})}
P(dp∣x1Ij)=dpN(xiIj)+ndpN(xiIj)dpN(xiIj)
P
(
d
p
∣
x
1
I
2
)
=
N
(
d
p
,
x
1
I
2
)
N
(
x
1
I
2
)
=
N
(
d
p
,
x
1
I
2
)
N
(
d
p
,
x
1
I
2
)
+
N
(
n
d
p
,
x
1
I
2
)
=
8
8
+
15
=
8
23
\begin{aligned} P(dp|x_1^{I_2})&=\frac{N(dp,x_1^{I_2})} {N(x_1^{I_2})}\\ &=\frac{N(dp,x_1^{I_2})} {N(dp,x_1^{I_2}) + N(ndp,x_1^{I_2})}\\ &=\frac{8}{8+15}\\ &=\frac{8}{23} \end{aligned}
P(dp∣x1I2)=N(x1I2)N(dp,x1I2)=N(dp,x1I2)+N(ndp,x1I2)N(dp,x1I2)=8+158=238
P
(
n
d
p
∣
x
1
I
2
)
=
N
(
n
d
p
,
x
1
I
2
)
N
(
x
1
I
2
)
=
N
(
n
d
p
,
x
1
I
2
)
N
(
d
p
,
x
1
I
2
)
+
N
(
n
d
p
,
x
1
I
2
)
=
15
8
+
15
=
15
23
\begin{aligned} P(ndp|x_1^{I_2})&=\frac{N(ndp,x_1^{I_2})} {N(x_1^{I_2})}\\ &=\frac{N(ndp,x_1^{I_2})} {N(dp,x_1^{I_2}) + N(ndp,x_1^{I_2})}\\ &=\frac{15}{8+15}\\ &=\frac{15}{23} \end{aligned}
P(ndp∣x1I2)=N(x1I2)N(ndp,x1I2)=N(dp,x1I2)+N(ndp,x1I2)N(ndp,x1I2)=8+1515=2315
P
(
d
p
∣
x
1
I
2
)
<
P
(
n
d
p
∣
x
1
I
2
)
P(dp|x_1^{I_2})<P(ndp|x_1^{I_2})
P(dp∣x1I2)<P(ndp∣x1I2),
x
1
I
2
x_1^{I_2}
x1I2被判别为
n
d
p
ndp
ndp类
法二:
P
(
x
i
I
j
∣
d
p
)
=
d
p
N
(
x
i
I
j
)
d
p
N
(
x
i
)
P(x_i^{I_j}|dp)=\frac{dpN(x_i^{I_j})}{dpN(x_i)}
P(xiIj∣dp)=dpN(xi)dpN(xiIj)
P
(
x
1
I
2
∣
d
p
)
=
N
(
d
p
,
x
1
I
2
)
N
(
d
p
,
x
1
)
=
N
(
d
p
,
x
1
I
2
)
N
(
d
p
,
x
1
I
1
)
+
N
(
d
p
,
x
1
I
2
)
=
8
3
+
8
=
8
11
\begin{aligned} P(x_1^{I_2}|dp)&=\frac{N(dp,x_1^{I_2})}{N(dp,x_1)}\\ &=\frac{N(dp,x_1^{I_2})}{N(dp, x_1^{I_1})+N(dp,x_1^{I_2})}\\ &=\frac{8}{3+8}\\ &=\frac{8}{11} \end{aligned}
P(x1I2∣dp)=N(dp,x1)N(dp,x1I2)=N(dp,x1I1)+N(dp,x1I2)N(dp,x1I2)=3+88=118
P
(
x
1
I
2
∣
n
d
p
)
=
N
(
n
d
p
,
x
1
I
2
)
N
(
n
d
p
,
x
1
)
=
N
(
n
d
p
,
x
1
I
2
)
N
(
n
d
p
,
x
1
I
1
)
+
N
(
n
d
p
,
x
1
I
2
)
=
15
10
+
15
=
15
25
\begin{aligned} P(x_1^{I_2}|ndp)&=\frac{N(ndp,x_1^{I_2})}{N(ndp,x_1)}\\ &=\frac{N(ndp,x_1^{I_2})}{N(ndp, x_1^{I_1})+N(ndp,x_1^{I_2})}\\ &=\frac{15}{10+15}\\ &=\frac{15}{25} \end{aligned}
P(x1I2∣ndp)=N(ndp,x1)N(ndp,x1I2)=N(ndp,x1I1)+N(ndp,x1I2)N(ndp,x1I2)=10+1515=2515
P
(
x
1
I
2
∣
d
p
)
>
P
(
x
1
I
2
∣
n
d
p
)
P(x_1^{I_2}|dp)>P(x_1^{I_2}|ndp)
P(x1I2∣dp)>P(x1I2∣ndp),
x
1
I
2
x_1^{I_2}
x1I2被判断为
d
p
dp
dp类
结果分析
对于同一组数据,采用不同的分类方法得到的结果可能是不同的。
但对于上述两种依据概率分类的方法,第二种方法
P
(
x
i
I
j
∣
d
p
)
P(x_i^{I_j}|dp)
P(xiIj∣dp)是一种不可取的方式,因为他切断了类与类之间的关联,只关注数据在类内的分布是不可靠的。
在第二种分类方法中,对于特征
x
1
I
2
x_1^{I_2}
x1I2,我们的分类结果
d
p
dp
dp类;但是从数据的总体分布来看:
在
d
p
dp
dp类中,
x
1
I
2
x_1^{I_2}
x1I2的频度为8
在
n
d
p
ndp
ndp类中,
x
1
I
2
x_1^{I_2}
x1I2的频度为15
对于含有特征
x
1
I
2
x_1^{I_2}
x1I2的测试样本,从总体数据分布来看,其属于类
d
p
dp
dp的概率为
8
8
+
15
=
8
23
\frac{8}{8+15}=\frac{8}{23}
8+158=238,属于类
n
d
p
ndp
ndp的概率为
15
8
+
15
=
15
23
\frac{15}{8+15}=\frac{15}{23}
8+1515=2315,因此该样本更有可能是
n
d
p
ndp
ndp类而非
d
p
dp
dp类,与法二结果相悖。
因此数据分析要从总体的数据分布来考虑,而不能只参照类内的数据分布。