CUDA C++ Programming Guide 7.26. Asynchronous Barrier
NVIDIA C++ 标准库引入了 std::barrier 的 GPU 实现。除了std::barrier的实现之外,该库还提供了扩展功能,允许用户指定屏障对象的作用范围。屏障 API 的作用范围在 Thread Scopes 中有详细说明。 计算能力为8.0或更高的设备为屏障操作提供了硬件加速,并将其与memcpy_async 功能集成。 在计算能力低于8.0但不低于7.0的设备上,这些屏障可以使用但没有硬件加速。
翻译
2024-09-11 09:30:16 ·
184 阅读 ·
0 评论