统计学习方法笔记(一)

     之前都是手写笔记,但是由于习惯不好,笔记老是找不到,又有很多人推荐我写博客方便以后查看,所以这几天会将我之前的笔记,一点点的写到这里来,但是由于CSDN的博客设置不是很会用,会很粗糙哦。。。

     首先是李航老师的统计学习方法,一直认为是入门的非常经典的一本书,里面的理论知识非常适合新手看。

     接下来,是我当时写的一些笔记。

     (一)统计学习方法概论

     统计学习三要素:  方法=模型+策略+算法

  • 模型:在监督学习过程中,模型就是所要学习的条件概率或决策函数,模型的假设空间包括所有可能的条件概率或决策函数。
  • 策略,即按照什么样的准则选择最优模型。
  1. 损失函数和风险函数 (。。。实在是不想打公式)


      期望损失(期望风险):

           

      经验损失(经验风险)

              


        学习的目标就是选择期望风险最小的模型。但是一方面算期望风险需要用到联合分布,另一方面联合分布又是未知的,所以监督学习就成为一个病态的问题。

     但是由于我们有神奇的大数定理,当样本容量N趋向于无穷是,我们的经验风险趋向于期望风险!!这是非常关键的一点,所以我们可以用经验风险去估计期望风险。

    2,经验风险最小化和结构最小化

    学机器学习的同学对着两个肯定不陌生,但是很多人不清楚这这两个名词是怎么来的。

    经验风险最小化:(听名字都知道是什么了)

            

      当样本容量足够大是,经验风险最小化能保证有很好的学习效果,“极大似然估计”就是经验风险最小化的一个例子。但是,当样本容量很小时,效果就未必很好。

    3,结构风险最小化

       本身就是为了防止过你和而提出的策略,就是在经验风险上加上了模型复杂惩罚函数,就是正则化项或罚项。



其中的J(f)为模型的复杂度。

      贝叶斯估计中的最大后验概率估计就是结构风险最小化的一个例子。

  4,过拟合

     指学习时选择的模型所包含的参数过多,以至于出现模型对已知数据预测的很好,但对未知数据预测的很差的现象。

     一般防止过拟合的方法:正则化与交叉验证。

  5,正则化

     就像上面结构风险公式的后半部分,正则化一般具有如下形式:


     正则化的作用是选择经验风险与模型复杂度同时较小的模型。

   6,交叉验证

  • 简单交叉验证:随机的将已给数据分为两部分,一部分作为训练集,另一部分作为测试集,(例如, 70%的数据为训练集.30%的数据为测试集),然后用训练集在各种条件下(例如,不同的参数个数〉训练模型,从而得到不同的模型:在测试集上评价各个模型的测试误差,选出测试误差最小的模型.
  • S折交叉验证(K):首先随机地将已给数据切分为5 个互不相交的大小相同的于集:然后利用S- l 个子集的数据训练模型,利用余下的于集测试模型:将这-过程对可能的S 种选择重复进行.最后选出S 次评测中平均测试误差最小的模型。
  • 留一交叉验证:S 折交叉验证的特殊情形是S=N.往往在数据缺乏的情况下使用-这里.N 是给定数据集的容量。
   7,泛化能力:就是模型对未知数据的预测能力。

        这部分主要是将泛化误差上界,主要是一个定理的证明,感兴趣的同学可以直接看书。

   8, 分类问题

      分类是监督学习的一个核心问题在监督学习中, 当输出变量Y 取有限个离散值时,预测问题便成为分类问题这时,输入变量X 可以是离散的,也可以是连续的.监督学习从数据中学习一个分类模型或分类决策函数,称为分类器(classifier) .

       评价分类器性能的指标一般是准确率。

       对于二分类问题常用的指标是——精确率和召回率。

       TP一将正类预测为正类数:
       FN一一将正类预测为负类数:
       FP一一将负类预测为正类数,
       TN-一将负类预测为负类数.

      这里有个很好记的方法,前面的T,F表示的是分类的正确性,后面的P,N为预测的结果,如TP,为正确预测为正类,那就是正类预测为正类数了嘛,FP,为错误预测为正类,那就是将负类预测为正类数了。微笑

 

    9,回归问题

       回归是监督学习的另-个重要问题回归用于预测输入变量(自变量)和输出变量(因变量)之间的关系。    

       回归问题的学习等价于函数拟合·选择一条函数曲线使其很好地拟合己知数据且很好地预测未知数据。

       回归学习最常用的损失函数是平方损失函数,在此情况下,回归问题可以由著名的最小二乘法(least squares) 求解。


大笑大笑大笑第一篇,不得不说手打好累,希望能坚持下去吧。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
李航的《统计学习方法》是一本经典的统计学习教材,其中涵盖了统计学习的基本理论和方法。该书主要介绍了统计学习的三要素:模型、策略和算法。引用提到,训练集用来训练模型,验证集用来选择模型,测试集用于对学习方法的评估。这些三要素是统计学习方法的基础。引用进一步解释了统计学习的目标,即通过构建概率统计模型对数据进行准确的预测与分析,并提高学习效率。引用提到了一种常用的统计学习方法,即提升(boosting),它通过改变训练样本的权重,学习多个弱分类器,并将它们线性组合成一个强分类器,以提高分类的性能。 总结起来,李航的《统计学习方法笔记主要围绕统计学习的基本理论和方法展开,介绍了统计学习的三要素、目标和提升等常用方法。这本书对于学习统计学习的人来说是一本非常有价值的参考资料。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* [统计学习方法——李航 笔记](https://blog.csdn.net/qq_45383347/article/details/110482540)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"] - *2* *3* [李航《统计学习方法学习笔记](https://blog.csdn.net/liuzuoping/article/details/98840923)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值