白板机器学习推导系列（频率学派vs贝叶斯学派）学习笔记（二）

最新推荐文章于 2024-09-14 19:18:15 发布

呆萌的小透明

最新推荐文章于 2024-09-14 19:18:15 发布

阅读量159

点赞数

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/xiekengli8279/article/details/110148670

版权

机器学习专栏收录该内容

4 篇文章 8 订阅

订阅专栏

本文介绍了机器学习中的频率派和贝叶斯派的理论基础。频率派关注未知常量θ的估计，利用极大似然估计进行参数估计，并将机器学习视为最优化问题。而贝叶斯学派则视θ为随机变量，采用最大后验概率估计（MAP），并通过贝叶斯定理进行预测。贝叶斯方法在概率图模型中尤为重要，涉及积分计算。

摘要由CSDN通过智能技术生成

                    
                    频率派 vs 贝叶斯派 
X：data ->  
      
          X 
         
          = 
         
          ( 
         
           x 
          
           1 
          
          , 
         
           x 
          
           2 
          
          , 
         
          . 
         
          . 
         
          . 
         
          , 
         
           x 
          
           N 
          
           ) 
          
            N 
           
            ∗ 
           
            P 
           
           T 
          
         X = (x_1, x_2, ..., x_N)^T_{N*P} 
        
     X=(x1​,x2​,...,xN​)N∗PT​
 
          θ 
         
         \theta 
        
     θ：parameter
假设 
      
          x 
         
          ∽ 
         
          p 
         
          ( 
         
          x 
         
          ∣ 
         
          θ 
         
          ) 
         
         x{\backsim}p(x|\theta) 
        
     x∽p(x∣θ)：x服从 
      
          p 
         
          ( 
         
          x 
         
          ∣ 
         
          θ 
         
          ) 
         
         p(x|\theta) 
        
     p(x∣θ)，这是概率模型
 
频率学派 
频率派认为： 
      
          θ 
         
         \theta 
        
     θ是一个未知的常量，X是一个随机变量；关心的数据，需要估计 
      
          θ 
         
         {\theta} 
        
     θ，常用极大似然估计： 
      
           θ 
          
            M 
           
            L 
           
            E 
           
          = 
         
            arg max 
           
            ⁡ 
           
           θ 
          
          l 
         
          o 
         
          g 
         
          P 
         
          ( 
         
          x 
         
          ∣ 
         
          θ 
         
          ) 
         
         {\theta}_{MLE}={\argmax_\theta}logP(x|\theta) 
        
     θMLE​=θargmax​logP(x∣θ) =  
      
            arg max 
           
            ⁡ 
           
           θ 
          
           £ 
          
           ( 
          
           θ 
          
           ) 
          
         \argmax_\theta{\pounds(\theta)} 
        
     θargmax​£(θ)
每个样本 
      
           x 
          
           i 
          
         x_i 
        
     xi​独立同分布(iid)服从 
      
          P 
         
          ( 
         
          x 
         
          ∣ 
         
          θ 
         
          ) 
         
         P(x|\theta) 
        
     P(x∣θ)， 
      
          P 
         
          ( 
         
          X 
         
          ∣ 
         
          θ 
         
          ) 
         
         P(X|\theta) 
        
     P(X∣θ) =  
      
           ∏ 
          
            i 
           
            = 
           
            1 
           
           n 
          
          P 
         
          ( 
         
           x 
          
           i 
          
          ∣ 
         
          θ 
         
          ) 
         
         \prod_{i=1}^nP(x_i|\theta) 
        
     ∏i=1n​P(xi​∣θ)，加上log用于简化运算。
频率派->统计机器学习->最优化问题：1、设计模型；2、定义loss function; 3、梯度下降。
 
贝叶斯学派 
贝叶斯学派认为： 
      
          θ 
         
         \theta 
        
     θ也是一个随机变量， 
      
          θ 
         
          ∽ 
         
           p 
          
           ( 
          
           θ 
          
           ) 
          
         \theta\backsim{p(\theta)} 
        
     θ∽p(θ)， 
      
          p 
         
          ( 
         
          θ 
         
          ) 
         
         p(\theta) 
        
     p(θ)一般称为先验。借助贝叶斯定理，把参数的先验和后验用似然联系起来。
贝叶斯定理：
 
MAP（最大后验概率估计）： 
      
           θ 
          
            M 
           
            A 
           
            P 
           
          = 
         
            arg max 
           
            ⁡ 
           
           θ 
          
          P 
         
          ( 
         
          θ 
         
          ∣ 
         
          x 
         
          ) 
         
          = 
         
            arg max 
           
            ⁡ 
           
           θ 
          
          P 
         
          ( 
         
          x 
         
          ∣ 
         
          θ 
         
          ) 
         
          P 
         
          ( 
         
          θ 
         
          ) 
         
         \theta_{MAP}=\argmax_{\theta}P(\theta|x)=\argmax_{\theta}P(x|\theta)P(\theta) 
        
     θMAP​=θargmax​P(θ∣x)=θargmax​P(x∣θ)P(θ)
 
贝叶斯预测：X，来了个新样本 
      
           x 
          
           p 
          
         x_p 
        
     xp​，预测问题就是要求:
 
贝叶斯->概率图模型，最重要的就是求积分。