这一篇文章主要探讨机器学习中的一些基本概念。主要包括以下部分:
1. 机器学习的三要素
2. 机器学习中常用的损失函数,重点分析对数损失函数的意义
3. 常用的模型的正则化项及其实际意义
4. 交叉验证与模型的性能度量
注:以下内容为自己学习西瓜书和《统计学习方法》过程中的总结,部分为自己的认识,错误之处烦请指出。
一、机器学习三要素
李航博士的书中提到任何统计学习方法(我理解为传统的机器学习方法)由三部分组成:模型、策略、算法。以下自己用一个简单的回归问题来理解这三个要素。
任务为从一堆已知的 (X,Y) ( X , Y ) ( X∈Rn X ∈ R n 即每一个实例的输入有n个特征)的数据集中学到某一个函数 Y=f(X) Y = f ( X ) ,对于新给定的一个 X X 我们能正确的得到其输出
的值。
那么三要素中的模型即是指的我们上述学到的函数表达式的形式。比如我们的模型为简单的线性模型,则模型即为
Y=ω1X(1)+ω2X(2)+...+ωnX(n)+b Y = ω 1 X ( 1 ) + ω 2 X ( 2 ) + . . . + ω n X ( n ) + b
当然如果采用其他模型,则函数表达式的形式会不一样。也有可能为没有具体函数的启发式的模型比如KNN这种,学习一个规则(K临近),对于每一个新输入的实例根据其规则给定一个输出。
当我们确定了一个模型时,下一步就是要确定模型中的每一个参数来获得最优的模型。那么策略即为我们学习最优模型的准则,也即选择参数(即每一个 ωi ω i )的准则。这里就要引入损失函数来定量的衡量我们模型的好坏,关于常用的损失函数下一节会提到。当我们确定了损失函数 L(Y,f(X)) L ( Y , f ( X ) ) 后就可以衡量该模型的好坏了。理论上假设我们观测的数据都是来自某一特定的联合分布 P(X,Y) P ( X , Y ) 那么对于模型 Y=f(X) Y = f ( X ) 关于该联合分布的期望损失(或者称为风险函数)定义为:
Rexp(f)