Dify学习-15-儿童故事绘本-儿童故事播客工作流==故事+封面图+音频-CSDN博客

本文链接：https://blog.csdn.net/weixin_44522477/article/details/147637698

源文章和代码：

https://www.bilibili.com/video/BV1xPioYPEJB/?spm_id_from=333.1387.collection.video_card.click&vd_source=c47fbb8166930edc486d8fdc405bf569

任务生成

儿童故事播客工作流
生成故事+ 封面图 + 音频

整体的任务流程图

首先就是开始（输入提示词），之后大模型生成故事，故事调用【TEXT TO SPEECH】得到音频文件，将故事输入到LLM得到封面的文本，文本翻译为英文，提取出图片的url，之后进行输出。
在这里插入图片描述

我把comfyui换成了用Pollinations生成图片，我在前面的文章中写了，好像下面也写了

故事生成

### 角色清晰
作为儿童文学作家，您擅长创作富有教育意义和想象力的儿童故事，尤其善于将科学、安全教育、唐诗宋词、历史等元素融入到故事内容中。您的任务是根据
上下文
扩充创意儿童故事，向孩子们传递科学、安全教育、唐诗宋词、历史等知识和人生哲理。
### 结构化交互
请按照以下步骤进行：
1.  **故事背景**：根据用户提供的内容
，创作一个现代孩子的日常生活场景，并巧妙地引入一个儿童故事角色或元素。
2.  **情节构建**：设计故事情节，故事情节内容可以与科学、安全教育、唐诗宋词、历史等元素融入。
3.  **教育意义与启示**：通过故事结尾，揭示故事的教育意义和人生哲理，与主题相呼应。
4.  **中文输出**：最终全中文输出故事内容。

TEXT TO SPEECH

是用的硅基流动的【FunAudioLLM/CosyVioce2-0.5B】模型。
在这里插入图片描述

封面图生成

LLM调用1：将故事概括得到一个封面Prompt

你是一位经验丰富的AI绘画图像生成助手。你的任务是根据
上下文
内容提炼出一条应用于AI绘画模型的prompt，prompt要包含儿童插画，这条prompt的目的是生成生成一幅故事内容相关的封面。

在这里插入图片描述

LLM调用2：翻译成英文输入到url中

你是一个图像生成助手，请将
上下文，翻译成英文，并插入到以下链接的{prompt}部分： ![image](https://image.pollinations.ai/prompt/{prompt}?width=1024&height=1024&enhance=true&private=true 然后输出生成内容

只得到url

import re

def main(arg1: str) -> dict:
    pattern = r'!\[image\].*?enhance=true&private=true\)'
    match = re.search(pattern, arg1, re.DOTALL)

    result = match.group()

    return {
        "result": result,
    }

图片url为文件

在这里插入图片描述

结束

有故事，文字，有图片，有音频，都能下载
在这里插入图片描述

在这里插入图片描述

还有视频流的生成

后端代码

安装包

pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple/

腾旭COS

硅基流动

https://blog.csdn.net/fyfugoyfa/article/details/145430651

我没用到，我用的本地的模型

Text To Speech 需要配置，如果单独配置感觉有点麻烦

ComfyUI–需要本地部署

ComfyUI就像拥有一支神奇魔杖，可以轻松创造出令人惊叹的AI生成艺术。从本质上讲，ComfyUI是构建在Stable Diffusion之上的基于节点的图形用户界面(GUI)，而Stable Diffusion是一种最先进的深度学习模型，可以根据文本描述生成图像。但ComfyUI真正特别之处在于，它如何让像你这样的艺术家释放创造力，将你最疯狂的想法变为现实。

想象一下有一块数字画布，你可以通过连接不同的节点来构建自己独特的图像生成工作流，每个节点代表一个特定的功能或操作。就像为你的AI生成杰作构建一个视觉食谱!

Text To Speech

在这里插入图片描述
硅基流动之后进行配置了
FunAudioLLM/CosyVoice2-0.5B

Voice of FunAudioLLM/CosyVoice2-0.5B(langgenius/siliconflow/siliconflow) 这是什么意思

文生图

我看见流程图用COMPFYUI ，这个要本地部署，有点麻烦，我就不想本地部署，这个有免费生成的，我用用这个
在这里插入图片描述
方法1：
https://zhuanlan.zhihu.com/p/1887784979100047064

方法2：
https://www.80wz.com/rgznstudy/6367.html

方法3：
https://jspang.com/2025/04/24/Dify/Dify-05/

文生图简单的方法

提示

你是一个图像生成助手，请根据我的简单描述，想象并详细描述一幅完整的画面。然后将你的详细描述翻译成英文，并插入到以下链接的{prompt}部分： ![image](https://image.pollinations.ai/prompt/{prompt}?width=1024&height=1024&enhance=true&private=true 然后输出生成内容

结果

在这里插入图片描述

Pollinations：URL拼接和API形式提供免费大模型服务

https://www.aisharenet.com/pollinations/

Pollinations 是一个由柏林 Pollination.AI 团队开发的全开源平台，提供免费的图像、文本和音频生成服务。用户无需注册或申请 API 密钥，就能通过网页或 API 使用。它支持多种 AI 模型，包括 Flux 图像生成、OpenAI 文本生成和音频转换功能。平台注重隐私保护，不存储任何用户数据，使用全程匿名。截至目前，它每月服务超过 5 万活跃用户，生成超过 2000 万张图片，广泛应用于创作、开发和教育领域。

Pollinations 最早是一个免费的图像生成工具，可以让大模型生成文章同时进行配图。使用方式是在URL中拼接提示词，即可生成图片： https://pollinations.ai/p/{prompt}

Pollinations 有段时间要将重点转向AI音乐视频创作，以及一款令人兴奋的实时沉浸式AI产品Dreamachine。为此我还制作了替代品：https://img.kdjingpai.com/{prompt}

在这里插入图片描述
提示词：
敦煌飞天宇航员