StoryDALL-E复现(基于预训练文本到图像Transformer的故事续编)

本文档介绍了如何复现StoryDALL-E项目,涉及数据集下载、模型训练、环境配置等步骤。项目使用预训练的Text-to-Image Transformer进行故事续编,数据集包括pororo和flintstones,模型基于minDALL-E。训练环境需Ubuntu 22.04,CUDA 11.3,修复了train_t2i.py中的一些问题。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一、项目概述

最近突然对基于AI的内容生成大感兴趣,会复现大量相关项目,看当前的研究现状。

1. 代码地址

StoryDALL-E: Adapting Pretrained Text-to-Image Transformers for Story Continuation

2. 数据集下载

这里有两个数据集已经开放,分别为 pororoflintstones。其中 pororo 约为 15.1GB,flintstones 约为 5.3GB。
下载完成后,将其分别放入相应目录,并解压缩。

# 解压缩
unzip data.zip
# 重命名
mv data pororo

目录结构如下所示:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值