文生视频、图生视频 AI 大模型开源项目介绍【持续更新】

HunyuanVideo

  1. 介绍:HunyuanVideo 是腾讯推出的一个开源视频生成大模型,具有与领先的闭源模型相媲美甚至更优的视频生成表现。这个模型采用了全面的训练框架,集成了数据整理、图像-视频联合模型训练和高效的基础设施以支持大规模模型训练和推理。HunyuanVideo 通过有效的模型架构和数据集扩展策略,成功训练了一个拥有超过 130 亿参数的视频生成模型,使其成为最大的开源视频生成模型之一。

  2. GitHub:https://github.com/Tencent/HunyuanVideo

  3. 官网:https://aivideo.hunyuan.tencent.com/
    在这里插入图片描述

Open-Sora

  1. 介绍:Open-Sora是一个由北京大学和兔展科研团队推出的开源项目,旨在推动视频生成技术的发展。Open-Sora致力于高效制作高质量视频,通过开源原则,使高级视频生成技术变得民主化,并提供一个简化且用户友好的平台,简化视频生成的复杂性。Open-Sora基于Diffusion Transformer(DiT)架构,使用华为开源的PixArt-α高质量文本到图像生成模型,并通过添加时间注意力层将其扩展为生成视频。
  2. GitHub:https://github.com/hpcaitech/Open-Sora
  3. 官网:https://hpcaitech.github.io/Open-Sora/
    在这里插入图片描述

MoneyPrinterTurbo

  1. 介绍:MoneyPrinterTurbo 是一个 Python 开发的开源工具,旨在通过自动化生成短视频来加速内容生产。它结合了图像处理、文本转语音 (TTS)、视频编辑等功能,帮助用户快速制作符合社交媒体平台要求的短视频。支持 OpenAI、moonshot、Azure、gpt4free、one-api 等多种 AI 模型接入,满足不同用户的需求。
  2. GitHub:https://github.com/harry0703/MoneyPrinterTurbo
    在这里插入图片描述

StreamingT2V

  1. 介绍:StreamingT2V是由PicsArt AI研究团队推出的一款先进的AI视频生成模型,它能够从文本生成具有丰富动态特征的长视频。StreamingT2V是一种基于自回归技术的文本生成长视频方案,它能够生成长达1200帧、时长为2分钟的视频,显著超越了先前模型的时长限制。该模型通过引入条件注意模块(CAM)、外观保持模块(APM)以及随机混合方法,实现了长视频的流畅生成,确保了时间上的连贯性和与文本描述的紧密对齐。
  2. GitHub:https://github.com/Picsart-AI-Research/StreamingT2V
  3. 官网:https://streamingt2v.github.io/
    在这里插入图片描述

AnimateDiff

  1. 介绍:AnimateDiff是一个强大的AI视频生成框架,它能够将个性化的文本到图像(T2I)模型扩展为动画生成器,而无需对模型进行特定的调整。AnimateDiff通过从大规模视频数据集中学习到的运动先验知识,作为Stable Diffusion文生图模型的插件,允许用户将静态图像转换为动态动画。它采用控制模块来影响Stable Diffusion模型,通过大量短视频剪辑的训练,调整图像生成过程,生成一系列与训练视频剪辑相似的图像。
  2. GitHub:https://github.com/guoyww/animatediff
  3. 官网:https://animatediff.github.io/
    在这里插入图片描述

StoryDiffusion

  1. 介绍:StoryDiffusion是一个由南开大学和字节跳动合作推出的开源AI故事创作项目,它专注于从文本描述生成具有一致性的图像和视频序列。StoryDiffusion通过结合一致性自注意力和语义运动预测器,为视觉故事生成领域提供了新的探索方向,并为内容创作者提供了一个强大的工具,以实现从文本到视觉故事的转换。
  2. GitHub:https://github.com/HVision-NKU/StoryDiffusion
  3. 官网:https://storydiffusion.github.io/
    在这里插入图片描述

Video-LaVIT

  1. 介绍:Video-LaVIT是一个创新的多模态预训练方法,旨在赋予大型语言模型(LLMs)理解和生成视频内容的能力。Video-LaVIT通过有效地将视频分解为关键帧和时间运动,解决了大规模预训练中视频的时空动态建模的挑战。这种方法使得视频、图像和文本的统一生成预训练成为可能。在推理阶段,由LLM生成的离散标记被仔细恢复到原始的连续像素空间,以创建各种视频内容。
  2. GitHub:https://github.com/jy0205/LaVIT
  3. 官网:https://video-lavit.github.io/
    在这里插入图片描述

MagicTime

  1. 介绍:MagicTime是一个创新的时间缩影视频生成模型,旨在通过学习现实世界的物理规则来生成包含复杂变形过程的高质量视频。MagicTime项目的核心目标是增强视频生成模型对现实世界精确描绘的能力,通过提出创新的方法和专属数据集,引领了一种全新的视频生成范式,即“元变形仿真”。这个项目能够基于特定的提示创造逼真的视频序列,特别关注于生成具有持续主体变形过程的视频,如植物生长、冰融化或花朵绽放等现象。
  2. GitHub:https://github.com/PKU-YuanGroup/MagicTime/tree/main
  3. 官网:https://pku-yuangroup.github.io/MagicTime/
    在这里插入图片描述

Follow-Your-Click

  1. 介绍:Follow-Your-Click是一个由腾讯混元团队联合清华大学和香港科技大学共同研发的图像到视频(Image-to-Video,简称I2V)生成模型。这个模型的核心特点是允许用户通过简单的点击和简短的动作提示来生成局部图像动画,从而将静态图像转换为动态视频。
  2. GitHub:https://github.com/mayuelala/FollowYourClick
  3. 官网:https://follow-your-click.github.io/
    在这里插入图片描述

Animate Anyone

  1. 介绍:Animate Anyone 是由阿里巴巴智能计算研究院推出的一款开源框架,专门用于将静态图像中的角色或人物进行动态化。Animate Anyone 利用扩散模型为基础,结合了 ReferenceNet、Pose Guider 姿态引导器和时序生成模块等技术,以实现照片动起来时保持一致性、可控性和稳定性,输出高质量的动态化视频。Animate Anyone 是一个功能强大且易于使用的图像到视频角色动画合成框架。它通过实时动画合成技术和用户友好的界面,使得动画制作变得更加简单和快捷。无论是专业人士还是业余爱好者,都可以利用这个工具创造出生动有趣的动画内容。
  2. GitHub:https://github.com/HumanAIGC/AnimateAnyone
    在这里插入图片描述

MuseV

  1. 介绍:MuseV是由腾讯音乐娱乐的天琴实验室开源的虚拟人视频生成框架,专注于生成高质量的虚拟人视频和口型同步。MuseV作为一个强大的虚拟人视频生成框架,为AI创作领域提供了新的可能性,特别是在虚拟人视频制作和口型同步方面展现出色的表现。
  2. GitHub:https://github.com/TMElyralab/MuseV
    在这里插入图片描述

AniPortrait

  1. 介绍:AniPortrait 是一个由腾讯开发的音频驱动的肖像动画合成框架,旨在根据音频和参考肖像图像生成高质量的动画。AniPortrait适用于虚拟现实、游戏、数字媒体制作等领域,提供了面部动画编辑和面部再现的灵活性。
  2. GitHub:https://github.com/Zejun-Yang/AniPortrait
    在这里插入图片描述

champ

  1. 介绍:Champ是一个由阿里巴巴、复旦大学和南京大学研究人员共同提出的项目,它是一个可控且与原始人物保持一致性的人物图像动画视频生成框架。Champ通过结合3D模型和潜在扩散框架,实现了对复杂人体几何和运动特征的精确捕捉。该框架能够将静态人物图片转换为动态视频动画,同时保持动画的时间一致性和视觉真实性。Champ在未见领域动画和跨身份动画转换方面展现出卓越性能,并计划开源代码,以推动该领域的进一步研究和应用。
  2. GitHub:https://github.com/fudan-generative-vision/champ
  3. 官网:https://fudan-generative-vision.github.io/champ/#/
    在这里插入图片描述

AniTalker

  1. 介绍:AniTalker是一个由上海交通大学X-LANCE实验室与思必驰AI Speech研究人员共同开发的开源框架,旨在从单一静态肖像和输入音频生成具有自然流动动作的动画说话视频。AniTalker采用通用动作表示,有效捕获广泛的面部动态,包括微妙的表情和头部运动。该框架通过两种自监督学习策略增强运动描述:一是从同一身份内的源帧重建目标视频帧以学习细微的运动表示;二是开发身份编码器,同时主动最小化身份和运动编码器之间的互信息,确保运动表示是动态的,没有特定于身份的细节,显著减少了对标记数据的需求。AniTalker可以广泛应用于虚拟主播、教育培训、娱乐产业等领域,用于制作互动教学视频、生成电影或游戏中的角色动画等。
  2. GitHub:https://github.com/X-LANCE/AniTalker
  3. 官网:https://x-lance.github.io/AniTalker/
    在这里插入图片描述

dreamtalk

  1. 介绍:DreamTalk是一个由清华大学、阿里巴巴集团和华中科技大学联合开发的扩散模型驱动的表情说话头生成框架。DreamTalk能够从单张图像和输入音频生成逼真的、富有表情的说话头像视频,支持多种说话风格。DreamTalk适合需要生成逼真说话面部动画的研究人员、开发者和创意专业人士。DreamTalk通过其创新的技术,为AI数字人领域提供了新的可能性,特别是在生成逼真的面部动作和动态化身方面展现出色的表现。
  2. GitHub:https://github.com/ali-vilab/dreamtalk
  3. 官网:https://dreamtalk-project.github.io/
    在这里插入图片描述

Stable Video Diffusion

  1. 介绍:Stable Video Diffusion(简称SVD)是由Stability AI开发的一种先进的视频生成模型,它基于深度学习技术,能够将文本和图像输入转换成生动的场景,并提升概念至动态影像创作。SVD能够生成高分辨率、高质量的视频内容,支持文本到视频和图像到视频的生成。Stable Video Diffusion作为AI视频生成技术的突破,展现了在视频创作领域的广阔前景,为个性化内容定制、短视频创作、虚拟现实与增强现实应用、教育与培训领域以及电影与游戏制作等领域带来了新的可能性。
  2. GitHub:https://github.com/Stability-AI/generative-models
  3. 官网:https://www.stablevideo.com/welcome
    在这里插入图片描述
### 开源项目用于文本视频 为了实现从文本视频的任务,通常需要结合多个技术组件来完成整个流程。一方面,存在专门针对文本到像或文本到视频成的应用程序,这些应用程序利用了高性能的Diffusion Transformer(DiT),能够有效地将自然语言描述转化为视觉内容[^1]。 ```python from transformers import pipeline text_to_video_generator = pipeline('text-to-video-generation') video_output = text_to_video_generator("A beautiful sunset over the ocean.") ``` 然而,在许多情况下,直接的文字视频功能并不是现成可用的。因此,一种常见的做法是先使用文本转语音(TTS)工具创建音频文件,再借助视频编辑软件或其他专用APIs合成最终的产品。例如,可以采用开源AI模型如GPT-2成详细的场景描述作为中间步骤的一部分。 ### 开源项目用于视频 对于由静态像序列构建动态影像的需求而言,同样存在着多种解决方案可供选择。某些框架允许开发者定义一系列变换规则,从而让计算机自动地把单张或多张静止的画面组合起来形成连贯的动作片段。值得注意的是,MetalCamera这样的iOS平台上的GPU加速库也提供了强大的能力来进行实时渲染以及复杂的后期特效处理操作[^3]。 ```bash # 安装 MetalCamera 及其依赖项 pip install metalcamera opencv-python numpy ``` 尽管如此,具体实施过程中还需要考虑诸如帧率同步、过渡效果设计等因素以确保产出质量达到预期标准。此外,也可以探索其他专注于多媒体创作领域的第三方插件和服务提供商所推出的特色功能模块。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

码流怪侠

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值