1、我们是使用批次并行还是顺序地训练模型?
在不同场景下有不同方式:
- 在使用批处理模式单独顺序训练模型时是 顺序训练 ;
- 而当使用多个工作机器,每个机器包含机器学习模型的副本,各副本可以同时处理一批原始数据,能实现 并行训练 。
2、如果我们使用的机器学习框架无法处理大型数据集,我们能否使用批处理模式?
可以。我们可以在想要处理和准备大型数据集用于模型训练时应用批处理模式,无论是我们使用的框架无法处理大型数据集,还是框架的底层实现需要专业领域知识,都能使用该模式。
3、如果一个机器学习模型需要知道整个数据集某个特征的均值,我们还能使用批处理模式吗?
不能。若算法需要了解整个数据集的信息,如特定特征在整个数据集上的总和,批处理就不再可行,因为无法从整个数据集的子集获取这些信息。同理,知道整个数据集某个特征的均值也需要整个数据集的信息,所以不能使用批处理模式。
4、本节介绍的分片模式使用的是水平分区还是垂直分区?
水平分区。一个分片本质上是一个水平数据分区,包含整个数据集的一个子集,分片也被称为水平分区。
5、手动分片是否有替代方案?
有,可采用基于算法的自动分片替代手动分片,如哈希分片。
哈希分片原理:
- 获取数据分片的键值。
- 生成该键值的哈希值。
- 通过哈希值确定数据集子集的位置。
优势:
- 使用 均匀哈希算法 可将数据均匀分布在不同机器上。
- 减少手动分片带来的问题。
6、如果数据集需要预处理,我们应该在缓存中存储什么?
我们应该在缓存中存储预处理后的批次,以避免在后续轮次的训练中再次进行预处理而浪费时间。

最低0.47元/天 解锁文章
1017

被折叠的 条评论
为什么被折叠?



