一、选择好的并行方式
选择好的算法,以发掘更多的数据并行性
二、保持SM忙碌
尽量利用所有的SM参与计算,可以通过加大数据量或减少线程块大小达到目的。
三、优化存储器利用
保证全局存储器合并访问(相邻线程访问段对齐的相邻地址)
使用速度更快的constant或shared存储器
选择好的算法,以发掘更多的数据并行性
尽量利用所有的SM参与计算,可以通过加大数据量或减少线程块大小达到目的。
保证全局存储器合并访问(相邻线程访问段对齐的相邻地址)
使用速度更快的constant或shared存储器