一、项目概述
最近突然对基于AI的内容生成大感兴趣,会复现大量相关项目,看当前的研究现状。
1. 代码地址
StoryDALL-E: Adapting Pretrained Text-to-Image Transformers for Story Continuation
2. 数据集下载
这里有两个数据集已经开放,分别为 pororo 和 flintstones。其中 pororo 约为 15.1GB,flintstones 约为 5.3GB。
下载完成后,将其分别放入相应目录,并解压缩。
# 解压缩
unzip data.zip
# 重命名
mv data pororo
目录结构如下所示:
本文档介绍了如何复现StoryDALL-E项目,涉及数据集下载、模型训练、环境配置等步骤。项目使用预训练的Text-to-Image Transformer进行故事续编,数据集包括pororo和flintstones,模型基于minDALL-E。训练环境需Ubuntu 22.04,CUDA 11.3,修复了train_t2i.py中的一些问题。
最低0.47元/天 解锁文章
25

被折叠的 条评论
为什么被折叠?



