《机器学习》系列总结（导学/复习）---第一章绪论-CSDN博客

本文链接：https://blog.csdn.net/zhihong2002/article/details/131310841

《机器学习》系列总结（导学/复习）—第一章绪论

什么是机器学习？

在日常生活中，我们如果看到天空阴沉、燕子低飞时，可能会说等会可能要下雨；在超市购买苹果，我们会挑选红且没有斑点的苹果，因为我们认为这种苹果会更好吃，更好一点；再例如我们西瓜书全文以西瓜为例，就为了告诉我们如何选西瓜🍉（bushi）。我们通过这些特征/现象（天空阴沉、苹果红、西瓜敲得响），以此预测（或判断）得出一个结论。机器学习也与此类似

机器学习：一种计算机通过“数据”产生“模型”的算法（叫做“学习算法”）。或者数学的角度讲就是构建一个函数。或者说是基于数据进行学习，从数据样本中寻求规律，再利用规律对未来的数据进行预测。比如我们有很多数据，我们把这些经验数据“喂”给它后，它基于数据产生模型，在遇到新情况时，通过模型即能得到一个相应的判断结果。

模型:此处泛指从数据中学到的结果
理解：类似我们通过很多次的观察发现，有天空阴沉、燕子低飞现象时，会下雨—这就是我们接收的数据。从而我们得到一个“算法”，当发现天阴沉，燕子低飞时，则我们可以预测会下雨

典型的机器学习过程：

训练数据（包含类别标记）使用学习算法(learning algorithm)或者说选择采用某种模型进行训练
得到最终的模型（训练得到模型内部的参数）
根据最终得到的模型，传入新的数据样本（不含类别标记）
输出类别标记

基本术语

监督学习和无监督学习：区别在于数据是否有标签
- 监督学习有标签
- 无监督学习无标签
数据集、训练集、测试集
- 数据集：所有数据记录的一个集合
- 训练集：训练过程中使用的数据
- 测试集：学得模型后，拿一些确定得数据去测试模型，这些数据构成测试集。注意测试集中的测试例已知它的标签（结果）
示例（instance）或样本（sample）：数据集中的每一条数据记录
属性（attribute）或特征（feature）：反应事件或对象在某方面的表现或性质的那些事项。比如西瓜的“色泽”，“敲声”，“根蒂”等，或者说”天气的状况“，”动物的行为“等。
属性值（attribute value）：在属性上的取值。如”天气晴朗“，”燕子高飞“或者 ” 天气阴沉“，”蚂蚁搬家“或者”青绿“、”响亮“、”乌黑“
属性空间、样本空间、输入空间：将多个属性张开成空间。比如“色泽”，“敲声”，“根蒂”分别作为三个坐标轴，形成一个三维空间，把一条记录的这些属性在空间中找到其位置。
特征向量：样本空间中点对应的坐标向量
标记空间或输出空间：预测时，得出样本的结果的标记信息，所标记的集合即为样本空间
假设(hypothesis)：学得模型对应数据的某种潜在规律
真相(ground-truth)：潜在规律自身
学习器(learner)：学习过程中逐渐找出或逼近真相，也可以说就是学习算法在空间中实例化
演绎：从一般到特殊—“特化”
归纳：从特殊到一般—“泛化”
归纳学习：
- 从样例中学习
- （狭义）概念学习
版本空间：与训练集一致的假设集合
归纳偏好：机器学习算法在学习过程中对某种类型假设的偏好，简而言之就是学习得到哪种模型更好
泛化（generalization）：模型使用新样本的能力称为泛化能力