机器学习三要素之数据、模型、算法

最新推荐文章于 2024-07-19 11:05:56 发布

wohu007

最新推荐文章于 2024-07-19 11:05:56 发布

阅读量3.6k

点赞数 2

分类专栏： Machine Learning 文章标签：模型算法数据

本文链接：https://blog.csdn.net/wohu1104/article/details/105032737

版权

Machine Learning 专栏收录该内容

29 篇文章 51 订阅

订阅专栏

参考：https://gitbook.cn/gitchat/column/5ad70dea9a722231b25ddbf8/topic/5b1086eccad6fe44db4c1268

1. 机器学习与人脑映射关系

我们自己用来判断万事万物的“观点”、“看法”、“洞察”，实际上都是我们头脑中一个个“模型”对所闻所见（输入数据）进行“预测”的结果。这些模型自身的质量，直接导致了预测结果的合理性。

从机器学习认识客观规律的过程中，我们可以知道，模型是由数据和算法决定的。对应到人脑，数据是我们经历和见过的万事万物，而算法则是我们的思辨能力。

2. 学原理和公式推导的意义

不同模型的特质、适用场景，对当前数据的匹配程度；
不同算法对算力和时间的消耗；
不同框架对软硬件的需求和并行化的力度；
评判模型性能的指标有哪些，如何计算？
正在使用的模型是怎么工作的？
这些超参数是什么含义，调整它们会产生哪些影响？
特征选取有哪些原则、方法可运用？

真正创造价值的，从来都是解决实际问题的人。

但对于理论知识扎实的机器学习工程师来说，他们完全有可能针对具体业务问题，构造出目标函数，甚至开发出符合自身软硬件资源特点的求解算法。

作者强烈建议：即使目标岗位是“深度学习工程师”，也应该从统计学习方法学起。

一方面深度学习与机器学习具有传承的关系，学习后者对于直观理解前者有极大帮助。

另一方面，统计学习方法建立在将概念“数字化”（向量化）的基础上，以数学公式和计算来表达概念之间的关联及转化关系。机器学习是一种认识世界的工具，借助它，我们可以从一个新的角度来看待世间万物。

换句话说，当我们知道机器是怎样通过学习事物特征的概率分布和转换来掌握事物规律的时候，我们就有可能反过来审视自己看待世界的方法，发现其中不合理的部分，并主动优化自己的思维模型。

作者分享出来只是想说明：学习机器学习原理和公式推导，并非只是做一些无聊的数字变换。很可能由此为我们打开一扇窗，让我们从新的角度看待世界，并为日常的思考过程提供更加可量化的方法。

3. 数据模型算法之间的联系

机器学习三要素包括数据、模型、算法。简单来说，这三要素之间的关系，可以用下面这幅图来表示：
算法-模型-数据之间的关系.jpg

总结成一句话：算法通过在数据上进行运算产生模型。

3.1 数据

输入给计算机的图片或者视频是原始数据，由于计算机只能处理数值，而不是图片或者文字。所以我们就需要构建一个向量空间模型（ Vector Space Model ，VSM）。 VSM 负责将格式（文字、图片、音频、视频）转化为一个个向量。然后开发者把这些转换成的向量输入给机器学习程序，数据才能够得到处理。

3.1.1 无标注数据

比如图2小马宝莉中的6为女主角，我们要给她们做聚类，而且已经知道了，要用她们的两个特征来做聚类，这两个特征就是：独角和翅膀。

那么我们就可以定义一个二维的向量 A=[a_1,a_2]。a_1 表示是否有独角，有则 a_1 = 1, 否则 a_1 = 0。而 a_2 表示是否有翅膀。

那么按照这个定义，我们的6匹小马最终就会被转化为下面6个向量：

 X_1 = [1,0]
 X_2 = [0,0]
 X_3 = [0,0]
 X_4 = [0,1]
 X_5 = [0,1]
 X_6 = [1,0]

这样，计算机就可以对数据 X_1，……，X_6 进行处理了。这6个向量也就叫做这份数据的特征向量（Feature Vector）。

3.1.2 有标注数据

数据标注简单而言就是给训练样本打标签。这个标签是依据我们的具体需要给样本打上的。

比如，我们要给一系列图标做标注，所有图片分为两类：“猫”或者“不是猫”。那么就可以标注成下图这样：
图像标注.png

我们把样本的标签用变量 y 表示，一般情况下，y 都是一个离散的标量值。
标注数据当然也要提取出特征向量 X。每一个标注样本既有无标注样本拥有的 X，同时还比无标注样本多了一个 y。 例如：

我们用三维特征向量 X 表示老鼠分类器的源数据，每一维分别对应“耳朵是圆的”、“有细长尾巴”、“是尖鼻子”。同时用一个整型值 y 来表示是否为老鼠，是的话 y=1，否则 y=0。

那么图1老鼠和其他动物对应的数据就是这样的：

    X_1 = [1,1,1]; y = 1
    X_2 = [1,1,1]; y = 1
    X_3 = [1,1,1]; y = 1
    X_4 = [1,1,1]; y = 1
    X_5 = [1,1,1]; y = 1
    X_6 = [0,1,1]; y = 0
    X_7 = [0,0,0]; y = 0
    X_8 = [0,1,0]; y = 0
    X_9 = [0,0,1]; y = 0