小熊的第一篇技术博客——机器学习绪论

本文链接：https://blog.csdn.net/weixin_43896884/article/details/97789843

机器学习（一）

大三的时候学习了《机器学习》这门课程，作为一个热爱数学的工科女，这门课程让我知道了如何应用数学到人工智能这个领域以及数学确实能够给人类带来一些隐形的好处（可能有时候在推导不出数学公式的时候，我也怀疑过人生）。前段时间，在经过面试老师咄咄逼人的灵魂拷问之后，我开始怀疑自己是否真的理解了机器学习，显然答案是否定的。于是想趁着暑假的时间，把周志华的西瓜书给啃完，因为之前学习的是李航的《统计学习方法》，所以在啃西瓜的时候对一些术语难免会有一点不适应。不过两本书阅读下来（西瓜书还在阅读中），发现两本书各有各的风格，都是值得一读的读物。

由于这个系列的博客是写给自己当学习笔记用的，因此有些过于基础的内容本文不再重复讲述，如有需要者请自行百度。

下面要开始我的碎碎念了！！！！

西瓜书为什么要叫西瓜书
仅仅是因为封面是西瓜吗？

在这里插入图片描述
除了封面是西瓜以外，整本书的主要例子都是使用西瓜来展开的以及一些术语的解释都是使用西瓜这个形象的语言来解释的，这可能是被称为西瓜书的主要原因吧。

基本术语

这里引用西瓜书中的数据：（色泽=青绿；根蒂=蜷缩；敲声=浊响），（色泽=乌黑；根蒂=稍蜷；敲声=沉闷），（色泽=浅白；根蒂=硬挺；敲声=清脆）

每对括号内是一条记录，也把一条记录称为一个特征向量
“数据集”：记录的集合
“示例instance”或“样本sample”:每条记录，用于描述某个事件或对象（本人更习惯于用样本这个术语）
“属性attribute”或“特征feature”：反映事件或对象在某方面的表现或性质的事项，例如“色泽”，“根蒂”，“敲声”
“属性值attribute value”：属性的值，例如“青绿”、“蜷缩”等
“学习learning”或“训练training”：从数据中学习模型的过程（有时也将模型称为学习器）
“训练数据training data”：训练过程中使用的数据
“测试”：学习模型之后，使用模型进行预测的过程，被预测的样本称为“测试样本testing sample”

假设空间

假设空间，通俗点讲，就是由多个假设（模型）组成的空间。机器学习的目的是通过已有数据集从假设空间中学习出一个最合适的模型。

“从样例中学习”显然是一个归纳的过程，因此也被称为“归纳学习”。归纳学习有广义和狭义之分，广义的归纳学习相当于从样例中学习，而狭义的归纳学习则要求从训练数据中学的概念，亦称为“概念学习”。

概念学习中最早应用的是布尔概念学习，这里可以类别一下《智能信息检索》中的布尔模型。布尔概念学习实质上是在一个所有假设（模型）组成的空间中进行搜索的过程，搜索目标是找到与训练集“匹配”的假设，在搜索的过程中可能会出现以下问题：
在实际问题中，我们常常面临很大的假设空间，但学习过程是基于有限训练集进行的，因此可能有多个假设（模型）与训练集一致，也就是说可能存在多个假设（模型）与训练集匹配，我们称之为“版本空间”，这些假设在面对新的数据时会产生不同的输出，因此我们需要解决的是如何在版本空间中选择一个最优的假设。

归纳偏好

在上文中我们提到当有多个假设与训练集一致时，会给学习过程带来一些影响。机器学习算法在学习过程中对某种类型假设的偏好，称为**“归纳偏好 inductive bias”**，可以看作学习算法自身在一个可能很庞大的假设空间中对假设进行选择大的启发式。

下面就要介绍著名的**“奥卡姆剃刀”原则**（之前在课程上学习过这个，但当时并没有理解这个原则的原理、用途等）。其实“奥卡姆剃刀”特别简单，就一句话“若有多个假设与观察一致，则选最简单的那个”（我也不知道当时为什么自己居然不理解这句话），通俗来说，就是在多个假设中选择那个最简单的假设就完事了。但是，奥卡姆剃刀并非唯一可行的原则，因为如何判定哪个假设更简单也是我们需要考虑的问题，而这个需要借助其他机制才能解决。（感兴趣的同学可以在研究生阶段做相关方面的研究，尽管我觉得这个领域已经有很多相当成熟的研究了）

机器学习，说来说去，既可以说是人工智能领域的一个重要内容。机器学习可以应用在多种人工智能技术，诸如自然语言处理、最近大火的深度学习、计算机视觉、数据挖掘等，因此掌握并理解好机器学习是踏入人工智能领域的重大一步。

下面的文章将讲述如何对模型作出评价以及对模型进行调参的一系列假设检验方法。能够读到这里的读者可以说是很感动人了。

初次写博客，版面很糟糕，内容很空洞，我会继续改进！！我希望能够在机器学习这条道路上越走越远！！！！