如何整合多种大模型，自动制作短视频

最新推荐文章于 2025-04-06 19:41:05 发布

雪碧没气阿

最新推荐文章于 2025-04-06 19:41:05 发布

阅读量426

点赞数 35

文章标签：音视频人工智能大模型

本文链接：https://blog.csdn.net/xxue345678/article/details/138327391

版权

文章探讨了如何通过整合ChatGPT、Midjourney、机器翻译和语音合成等技术，创建一个AutonomousAIagent，实现一键生成包含剧本、图像、配音和字幕的视频。作者详细描述了整个工作流程，并强调了大模型AI的学习路径和其在提高生产效率中的作用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

随着各种 LLMs 的日臻完善，很多前所未见的能力正在不断涌现。

美国科技媒体 Medium，今年四月份发文，ChatGPT, Next Level: Meet 10 Autonomous AI Agents，预言市场上正在出现很多自主智能机器人，而且将会有更多这样的 autonomous AI agents 出现。它们的使命是，整合 LLMs 的前沿能力，根据具体行业的具体需求，完成前所未有的任务。

Agent 整合 LLMs 的高级能力，完成复杂任务

Autonomous AI agents 把多种 LLMs 的能力，整合成一个工作流程，从而完成复杂任务。下面这张图，展示了一个具体业务场景的工作流程。

把多种 LLMs 的高级能力，整合成工作流程，完成复杂任务。

我们今天的任务是，把 Chatgpt 与 Midjourney，以及机器翻译和语音合成等云服务，整合在一起，一键生成视频。具体来说，

我们自己动手写一段简单的文案，例如，

我是一名北漂，在北京做外卖骑手，勉强度日。有一次被车撞到，住院。住院期间闲得无聊，开始制作短视频。没想到，我的短视频，火了。出院后，就辞去外卖的工作，专心致志制作短视频了。

我们只需要写这么一段话，接下去所有工作，全部由 agent 自动完成，

步骤一，

Agent 先调用 Chatgpt，把这段文案改写成一个文字优美的剧本。Chatgpt 自动写作出来的剧本，由几个段落构成，如下，

1、故事起源于一次不幸的车祸，但最终却铸就了一个不同寻常的新起点。我，一个北漂者，在北京默默地为了生计奔波着，成了一名外卖骑手，勉强维持着日常生活的支出。然而，命运却往往在不经意间展开了新的局面。
2、那一天，一次车祸将我送进了医院，住院期间，我度过了一段充满无聊和等待的时光。但正是在这段等待中，一种全新的激情悄然而至。我开始尝试制作短视频，将我的想法、创意和故事分享给了世界。
3、令人惊讶的是，这些短视频开始迅速传播，引起了观众的关注和喜爱。在医院的床前，我开始关注我的视频收视率、评论和粉丝的增长，这成为了我生命中的一个新的焦点。
4、当我最终出院时，我做出了一个勇敢的决定，辞去了外卖骑手的工作，决心专心致志地追求我的梦想。我把全部的热情和创造力投入到视频制作中，努力创作出有趣、有深度、有影响力的内容，不断挑战自己的创作极限。
5、从那以后，我的短视频逐渐走红，我的努力开始得到回报。这个不经意间展开的新起点让我明白，生活中的不幸事件也可能是一次改变命运的契机。我决心坚持下去，将我的创作和梦想一步步推向更远的地方，迎接新的挑战，不断前行。这就是我的故事，一个从北漂到短视频创作者的转折点。

步骤二，

根据剧本，Agent 调用 Midjourney，给每个段落配一张动漫风格的图，每次 Midjourney 会生成 4 张图片，agent 从中随机挑选一张。

这样 5 个段落，agent 就得到 5 张动漫风格的图片。如下，

Midjourney 生成的动漫作品

这里有个问题，Midjourney 对英文 prompt 的理解更准确，但是对中文，有时候理解不太准确。例如，我们输入如下中文的 prompt 给 Midjourney，

/imagine: Anime, 亚裔小伙子被车撞了

Midjourney 生成如下照片，没有车祸现场的内容。解决办法是先调用机器翻译的云服务，根据剧本的内容，生成英文版的 prompt，然后把英文版 prompt 输入给 Midjourney。

用中文 prompt 生成的动漫作品，对中文 prompt 的理解不是很准确。

步骤三，

仍然根据剧本，agent 调用用语音生成技术（TTS），为剧本的每个段落，旁白配音。

剧本总共 5 个段落，agent 调用 TTS，得到 5 段旁白音频。

然后 agent 计算每段旁白音频的时长，待用。

调用 TTS，根据剧本文案，生成旁白配音 mp3。

步骤四，

Agent 把 Midjourney 生成的 5 张照片，按顺序串接在一起，形成一段短视频。如下，

根据每一段话的时长，调整短视频每个场景的时长，

把无声的视频，与旁白配音合成在一起，生成有声的视频。

步骤五，

制作字幕，根据剧本文案的内容，以及每段旁白配音的时长，生成 srt 字幕文件。srt 字幕文件内容如下，

srt 字幕文件

其中比较麻烦的地方在于，要掐准每句字幕播放的起始时间和终止时间。

因为旁白配音的语速并不是严格保持匀速，所以，计算字幕显示的起始时间和终止时间相当麻烦。

查了一下字幕制作的通行办法，其中一个办法是每次显示两句字幕，第一句是重复，重复上一次字幕的第二句。这样做的目的是展示前后文，便于观众理解。

步骤六，

根据关键词，从网上下载背景音乐。

Agent 根据视频的时长，从背景音乐中截取一段，并在音乐开始部分，和结束部分，分别进行渐强和渐弱效果。

Agent 把剪辑完成后的背景音乐，与视频整合在一起，完成全部工作。

总结一下，我们用 Autonomous AI Agent 前沿技术，把多种 LLMs 的前沿能力整合起来，实现一键生成短视频的功能。

在这个例子中，我们整合了以下 LLMs 和相关工具，完成多种任务。并根据视频制作的工作流程，实现了一个 autonomous AI agent。

1. Chatgpt：根据简短的主题，生成文字优美情绪饱满的剧本。

2. Midjourney：根据文字 prompt，生成动漫图片。

3. 视频剪辑：把图片串接起来，合成为视频。

4. 机器翻译：把剧本的文字段落，从中文，翻译成英文。

5. 语音合成：根据中文文字段落，生成中文的旁白配音。

6. 音乐搜索：根据关键词，在网上音乐库中搜索背景音乐，并下载相关音乐。

7. 音频剪辑：截取音乐，并进行渐强渐弱效果。

8. 视频合成：把无声的视频，与旁白配音的音频，与背景音乐的音频，与中文字幕的文字等，多种类型的内容，整合在一起，生成短视频。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述