AIGC
文章平均质量分 89
winnerahao
公众号:二度简并(搜索:erdu06)
展开
-
腾讯音频+图片=肖像生成 AniPortrait 论文核心
腾讯开源项目AniPortait!音频+图片+肖像视频原创 2024-04-01 17:33:32 · 357 阅读 · 0 评论 -
DIT: Scalable Diffusion Models with Transformers--Sora/SD3相关DIT技术论文阅读
探索了一种基于transformer架构的新型扩散模型。训练了图像的潜在扩散模型,将常用的 U-Net 骨干替换为在潜在补丁上操作的transformer。通过基于前向传播复杂度的 Gflops 测量来分析扩散transformer(DiTs)的可扩展性。具有更高 Gflops 的 DiTs — 通过增加transformer的深度/宽度或增加输入token的数量会具有较低的 FID。原创 2024-02-25 17:47:13 · 2357 阅读 · 0 评论 -
多模态音乐生成M2UGen论文解读
M2UGen 模型是一种音乐理解和生成模型,能够进行音乐问答,还可以从文本、图像、视频和音频生成音乐,以及音乐编辑。该模型利用 MERT 等编码器进行音乐理解、ViT 进行图像理解和 ViViT 进行视频理解,并使用 MusicGen/AudioLDM2 模型作为音乐生成模型(音乐解码器),再加上适配器和 LLaMA 2 模型,使该模型能够多种能力。原创 2024-01-25 19:41:21 · 882 阅读 · 0 评论