CUDA——wmma Tensor Core编程
share memory空间的申请__shared__ int smem[1024]load_matrix_sync 从share memory load一个matrix到fragment中wmma::load_matrix_sync(fragment<matrix_a/matrix_b, M, N, K, DType, row_major/col_major>& frag,const DType* p, unsigned ldm)该接口是一个warp级别的操作, .
原创
2021-02-17 11:02:02 ·
1935 阅读 ·
0 评论