40hx的半精度是由全精度计算去算的,所以速度上比全精度还慢,但全精度又费内存,所以跑Stable Video Diffusion时只能在慢与内存不够二种状态,经过不断的测试,找到一个速度够用,内存够用的办法:
采用fp16的SVD模型,详见我另外一个贴子,启动用下面这个参数。
python3 main.py --listen --force-fp32 --fp32-vae --normalvram --disable-smart-memory --fp8_e4m3fn-text-enc --fp8_e4m3fn-unet
速度对比,
* 全精度优化速度后出图3it/s,但SVD内存不够
* 半精度优化内存后出图 30-50s/it
* 全优化后,12s/it, 速度稳定