在测试图像旋转过程中,发先每个channel进行memcpy速度要明显慢与直接内存byte赋值*dst++=*src++,或dst[0]=src[0]. memcpy 要8.8ms, 直接内存赋值只有1.8ms