[看完提高一个level]pytorch的batching训练机制——从GPU硬件的角度理解
现在我们就可以理解为什么在机器学习/深度学习中batching是一种非常常见的操作,因为只有单份的计算代码同时处理多份数据,基于SIMD的GPU的算术逻辑单元(ALU)才能被尽可能多地利用起来,才符合GPU的设计初衷——简单指令、超大数据量场景的并行化计算。同时,由于GPU的设计动机就是为了超大量的数据,故其基本假设就是:不管是使用再精妙的多级缓存结构还是更大的缓存单元,GPU核心也会频繁地发生cache miss,即需要频繁地从内存中更耗时地取数据,故其GPU上的缓存相对CPU较小。
原创
2024-07-20 18:26:51 ·
1382 阅读 ·
0 评论