机器学习:贝叶斯算法实例讲解及推导过程
贝叶斯算法及推导: 例子引入: 假设在一个学校里面,男生的比例占60%,女生的比例占40%, 其中,男生都爱打篮球,而女生有70%不爱打篮球,有30%爱打篮球。 正向概率:我们在学校里随机抽取一位学生,这位学生爱打篮球和不爱打篮球的概率分别为多少? 令全校学生为 U P 爱打篮球 = U ∗ 60 % + U ∗ 40 % ∗ 30 % U P 不爱打篮球 = U ∗ 40 % ∗ 70 % U 逆向概率:我们在学校里随机抽取一位学生,但我们只知道 T A 爱不爱打篮球,但是我们不知道 T A 的性别, 此时,我们需要推断出 T A 是女生的概率有多大? 令全校学生为 U ,其中男生的比例表示为 P ( B o y ) = 60 % ,男生中爱打篮球的比例表示为 P ( B a l l ∣ B o y ) = 60 % ∗ 100 % 其中,全校爱打篮球的男生的人数为: M 爱打篮球男 = U ∗ P ( B o y ) ∗ P ( B a l l ∣ B o y ) 把全校女生的比例表示为 P ( G i r l ) = 40 % ,女生中爱打篮球的比例表示为 P ( B a l l ∣ G i r l ) = 60 % ∗ 30 % 则,全校爱打篮球的女生的人数为: M 爱打篮球女 = U ∗ P ( G i r l ) ∗ P ( B a l l ∣ G i r l ) 问题简述:求爱打篮球的女生的比例为多少? 爱打篮球的女生的概率 = 女生爱打篮球的人数 爱打篮球的人的总数 , 用具体的表达式表示为: P ( G i r l ∣ B a l l ) = M 爱打篮球女 M 爱打篮球男 + M 爱打篮球女 = U ∗ P ( G i r l ) ∗ P ( B a l l ∣ G i r l ) U ∗ P ( B o y ) ∗ P ( B a l l ∣ B o y ) + U ∗ P ( G i r l ) ∗ P ( B a l l ∣ G i r l ) 我们发现 U 只是中间变量,上下可以直接约掉,所以上式化简为: P ( G i r l ∣ B a l l ) = P ( G i r l ) ∗ P ( B a l l ∣ G i r l ) P ( B o y ) ∗ P ( B a l l ∣ B o y ) + P ( G i r l ) ∗ P ( B a l l ∣ G i r l ) 观察上式我们可以发现: P ( G i r l ) ∗ P ( B a l l ∣ G i r l ) ,其实表示的就是女生爱打篮球的比例,我们用 P ( B a l l , G i r l ) 表示; P ( B o y ) ∗ P ( B a l l ∣ B o y ) + P ( G i r l ) ∗ P ( B a l l ∣ G i r l ) ,其实表示的就是全校学生爱打篮球的比例,我们用 P ( B a l l ) 表示; 那么上式进一步化简为: P ( G i r l ∣ B a l l ) = P ( B a l l , G i r l ) P ( B a l l ) 进行一般化推广便得到了贝叶斯公式: P ( A ∣ B ) = P ( B ∣ A ) P ( A ) P ( B ) 通俗的解释就是: 我们在已知事件 A 发生的概率和事件 B 发生的概率,在求事件 B 条件下 A 的概率时,如果难度较大时, 我们可以通过贝叶斯公式进行转换,转换成 在事件 A 条件下发生 B 的概率*事件 A 发生的概率 事件 B 发生的概率 . \\ \text{贝叶斯算法及推导:}\\ ~\\ \text{例子引入:}\\ ~\\ \text{假设在一个学校里面,男生的比例占60\%,女生的比例占40\%,}\\ ~\\ \text{其中,男生都爱打篮球,而女生有70\%不爱打篮球,有30\%爱打篮球。}\\ ~\\ \text{正向概率:我们在学校里随机抽取一位学生,这位学生爱打篮球和不爱打篮球的概率分别为多少?}\\ ~\\ \text{令全校学生为}U\\ ~\\ P_{\text{爱打篮球}}=\frac{U*60\%\ +\ U*40\%*30\%}{U}\ \ \ \ \ \ \ P_{\text{不爱打篮球}}=\frac{U*40\%*70\%}{U}\\ ~\\ \text{逆向概率:我们在学校里随机抽取一位学生,但我们只知道}TA\text{爱不爱打篮球,但是我们不知道}TA\text{的性别,}\\ ~\\ \text{此时,我们需要推断出}TA\text{是女生的概率有多大?}\\ ~\\ \text{令全校学生为}U\text{,其中男生的比例表示为}P\left( Boy \right) =60\%\text{,男生中爱打篮球的比例表示为}P\left( Ball|Boy \right) =60\%*100\%\\ ~\\ \text{其中,全校爱打篮球的男生的人数为:}M_{\text{爱打篮球男}}=U*P\left( Boy \right) *P\left( Ball|Boy \right) \\ ~\\ \text{把全校女生的比例表示为}P\left( Girl \right) =40\%\text{,女生中爱打篮球的比例表示为}P\left( Ball|Girl \right) =60\%*30\%\\ ~\\ \text{则,全校爱打篮球的女生的人数为:}M_{\text{爱打篮球女}}=U*P\left( Girl \right) *P\left( Ball|Girl \right) \\ ~\\ \text{问题简述:求爱打篮球的女生的比例为多少?}\\ ~\\ \text{爱打篮球的女生的概率}=\frac{\text{女生爱打篮球的人数}}{\text{爱打篮球的人的总数}}\text{,}\\ ~\\ \text{用具体的表达式表示为:}\\ ~\\ P\left( Girl|Ball \right) =\frac{M_{\text{爱打篮球女}}}{M_{\text{爱打篮球男}}+M_{\text{爱打篮球女}}}\\ ~\\ \ \ \ \ \ \ \ \ \ \ \ =\frac{U*P\left( Girl \right) *P\left( Ball|Girl \right)}{U*P\left( Boy \right) *P\left( Ball|Boy \right) +U*P\left( Girl \right) *P\left( Ball|Girl \right)}\\ ~\\ \text{我们发现}U\text{只是中间变量,上下可以直接约掉,所以上式化简为:}\\ ~\\ P\left( Girl|Ball \right) =\frac{P\left( Girl \right) *P\left( Ball|Girl \right)}{P\left( Boy \right) *P\left( Ball|Boy \right) +P\left( Girl \right) *P\left( Ball|Girl \right)}\\ ~\\ \text{观察上式我们可以发现:}\\ ~\\ P\left( Girl \right) *P\left( Ball|Girl \right) \text{,其实表示的就是女生爱打篮球的比例,我们用}P\left( Ball\text{,}Girl \right) \text{表示;}\\ ~\\ P\left( Boy \right) *P\left( Ball|Boy \right) +P\left( Girl \right) *P\left( Ball|Girl \right) \text{,其实表示的就是全校学生爱打篮球的比例,我们用}P\left( Ball \right) \text{表示;}\\ ~\\ \text{那么上式进一步化简为:}\\ ~\\ P\left( Girl|Ball \right) =\frac{P\left( Ball\text{,}Girl \right)}{P\left( Ball \right)}\\ ~\\ \text{进行一般化推广便得到了贝叶斯公式:}\\ ~\\ P\left( A|B \right) =\frac{P\left( B|A \right) P\left( A \right)}{P\left( B \right)}\\ ~\\ \text{通俗的解释就是:}\\ ~\\ \text{我们在已知事件}A\text{发生的概率和事件}B\text{发生的概率,在求事件}B\text{条件下}A\text{的概率时,如果难度较大时,}\\ ~\\ \text{我们可以通过贝叶斯公式进行转换,转换成}\frac{\text{在事件}A\text{条件下发生}B\text{的概率*事件}A\text{发生的概率}}{\text{事件}B\text{发生的概率}}\\ \\. 贝叶斯算法及推导: 例子引入: 假设在一个学校里面,男生的比例占60%,女生的比例占40%, 其中,男生都爱打篮球,而女生有70%不爱打篮球,有30%爱打篮球。 正向概率:我们在学校里随机抽取一位学生,这位学生爱打篮球和不爱打篮球的概率分别为多少? 令全校学生为U P爱打篮球=UU∗60% + U∗40%∗30% P不爱打篮球=UU∗40%∗70% 逆向概率:我们在学校里随机抽取一位学生,但我们只知道TA爱不爱打篮球,但是我们不知道TA的性别, 此时,我们需要推断出TA是女生的概率有多大? 令全校学生为U,其中男生的比例表示为P(Boy)=60%,男生中爱打篮球的比例表示为P(Ball∣Boy)=60%∗100% 其中,全校爱打篮球的男生的人数为:M爱打篮球男=U∗P(Boy)∗P(Ball∣Boy) 把全校女生的比例表示为P(Girl)=40%,女生中爱打篮球的比例表示为P(Ball∣Girl)=60%∗30% 则,全校爱打篮球的女生的人数为:M爱打篮球女=U∗P(Girl)∗P(Ball∣Girl) 问题简述:求爱打篮球的女生的比例为多少? 爱打篮球的女生的概率=爱打篮球的人的总数女生爱打篮球的人数, 用具体的表达式表示为: P(Girl∣Ball)=M爱打篮球男+M爱打篮球女M爱打篮球女 =U∗P(Boy)∗P(Ball∣Boy)+U∗P(Girl)∗P(Ball∣Girl)U∗P(Girl)∗P(Ball∣Girl) 我们发现U只是中间变量,上下可以直接约掉,所以上式化简为: P(Girl∣Ball)=P(Boy)∗P(Ball∣Boy)+P(Girl)∗P(Ball∣Girl)P(Girl)∗P(Ball∣Girl) 观察上式我们可以发现: P(Girl)∗P(Ball∣Girl),其实表示的就是女生爱打篮球的比例,我们用P(Ball,Girl)表示; P(Boy)∗P(Ball∣Boy)+P(Girl)∗P(Ball∣Girl),其实表示的就是全校学生爱打篮球的比例,我们用P(Ball)表示; 那么上式进一步化简为: P(Girl∣Ball)=P(Ball)P(Ball,Girl) 进行一般化推广便得到了贝叶斯公式: P(A∣B)=P(B)P(B∣A)P(A) 通俗的解释就是: 我们在已知事件A发生的概率和事件B发生的概率,在求事件B条件下A的概率时,如果难度较大时, 我们可以通过贝叶斯公式进行转换,转换成事件B发生的概率在事件A条件下发生B的概率*事件A发生的概率.