李宏毅2020ML——P80通过GAN改进序列生成

本文探讨了传统seq2seq模型在训练中存在的问题,并介绍了两种改进方法:一是利用强化学习(RL),通过人类反馈最大化预期奖励;二是采用条件GAN(CGAN)并解决不可微分问题,如Gumbel-softmax和连续输入策略。这两种方法被应用于无监督条件序列生成、文本风格转换、抽象概括和无监督翻译等任务中,展示了它们在各种自然语言处理任务中的潜力和效果。
摘要由CSDN通过智能技术生成

Conditional Sequence Generation

用GAN的技术来train seq2seq
在这里插入图片描述
之前传统方法的问题:
在这里插入图片描述
今天会介绍两个提升的方法:
1.强化学习
2.GAN

RL (human feedback)

引入强化学习的方法:
在这里插入图片描述
思想:
在这里插入图片描述
最大化预期奖励
在这里插入图片描述
对期望reward进行变形,没有θ
在这里插入图片描述
先对有θ的项求gradient,再使用最后的式子来做approximate
在这里插入图片描述
具体含义:
在这里插入图片描述
流程:
在这里插入图片描述
和之前进行对比
在这里插入图片描述
人的精力是有限的,和不让两个ML自己对话呢
在这里插入图片描述

GAN (discriminator feedback)

有条件的GAN可以做到这个事情
在这里插入图片描述
算法流程:
在这里插入图片描述
没有办法微分怎么办?
在这里插入图片描述

三个解决不能微分的办法:

Gumbel-softmax

见paper
在这里插入图片描述

Continuous Input for Discriminator

直接避开
在这里插入图片描述
新的问题用WGAN解决
在这里插入图片描述

Reinforcement Learning

用强化学习的方法解决
在这里插入图片描述
训练流程:
在这里插入图片描述
会出现的问题:
在这里插入图片描述
解决办法:
在这里插入图片描述
结果展示:
在这里插入图片描述

Unsupervised Conditional Sequence Generation

Text Style Transfer

之前的思想套用
在这里插入图片描述
对图像的CycleGAN
在这里插入图片描述
图像换成文本
在这里插入图片描述
文本不能微分怎么办
在这里插入图片描述
结果展示
在这里插入图片描述
另外一种方法

我们之前将人像和漫画之间进行转换
在这里插入图片描述
也可以用这个方法来做文本转换
在这里插入图片描述

Unsupervised Abstractive Summarization

关于摘要总结
在这里插入图片描述
document看作domainX,summary看作domainY
在这里插入图片描述

第一种理解

cycle GAN思想
在这里插入图片描述
minimize the reconstruction error
在这里插入图片描述

第二种理解

另外一种理解
在这里插入图片描述
让其可读
在这里插入图片描述
结果展示:
在这里插入图片描述
结果对比:
在这里插入图片描述

Unsupervised Translation

同样的思想
在这里插入图片描述
也是可行的
在这里插入图片描述
语言之间转换
在这里插入图片描述
结果展示:
在这里插入图片描述

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值