1. 架构
- 2021监督学习方案,自己从头训练
- 基于Transformer的encoder-decoder
- transformer使用keras-transformer lib
- 2022迁移学习方案,使用T5 finetune
- 预训练使用 澜舟科技的孟子 T5
- 理论上可以把诗歌和对联两个合起来作为multi-task下游任务,但是对联有很多是现代白话文,古文我只用了唐诗宋词,所以最后还是分开
- 只训练了3-4个epoch,看loss的下降速度应该还有很大提升空间
2. 数据来源
- 唐诗宋词 https://github.com/chinese-poetry/chinese-poetry
- 2021 transformer 只训练 标题 -> 诗歌
- 2022 T5 方案考虑了 标题 -> 诗歌,或者 标题+诗人 -> 诗歌
- 标题长度限制12token,诗人4token,诗歌64token,结尾用句号,具体参考training下面的notebook
- 对联 https://github.com/wb14123/couplet-dataset
- 标准输入输出,T5使用对联:前缀,长度限制32字符
参考链接为:https://github.com/hululuzhu/chinese-ai-writing-share
3. 模型下载和使用
推荐参考inference下面的notebook来参考使用,模型下载地址也在notebook介绍
重要:模型文件存在Google Drive,推荐用Google账号打开,点击Add to shortcut,之后在你Drive的主页面shared with me看到目录后选择add shortcut to Drive,这样可以mount后本地可以操作文件
模型参数大小
2021 Transformer 对联 ~80M
2021 Transformer 写诗 ~10M
2022 T5 ~250M