近年来,生成式人工智能在图像生成领域取得了重大进展,催生了各种各样的应用。然而,视频生成在可控性、视频时长、细节丰富等各个方面仍面临相当大的挑战,阻碍了该技术的应用和普及。在这项工作中,我们提出了一种可控的视频生成框架,称为MimicMotion,该框架可以在任何运动引导下生成任意长度的高质量视频。与以往的方法相比,我们的方法有几个亮点。首先,通过置信度感知姿势引导,可以实现时间平滑度,从而可以利用大规模训练数据增强模型的鲁棒性。其次,基于姿态置信度的区域损失放大方法显著缓解了图像的畸变。最后,针对长视频的生成问题,提出了一种渐进潜融合策略。通过这种方式,可以在可接受的资源消耗下生成任意长度的视频。通过广泛的实验和用户研究,MimicMotion在多个方面比以前的方法有了显着的改进。