1. 尽量对global memory读写时采用连续地址的读写。 2. 多个thread对一个地址的数据操作并不互斥,因此可能会产生计算错误。 3. 原子操作可以解决上述问题,但原子操作的类型有限,且不保证各thread的执行顺序。