amdgpu gang submit 是mesh shader的优化, 而且一次cs_sub可以提交多个engine(entity )的packet, 节省syscall,同时在gang leader出错可以立即撤销group job