对话系统论文集(1)-BBQ网络

BBQ-Networks: Efficient Exploration in Deep Reinforcement Learning for Task-Oriented Dialogue Systems

问题:
提高exploration的效率; 比ε-greedy, Boltzmann, bootstrap- ping, and intrinsic-reward-based都好

背景:

在探索下一个动作的时候(特别是目标很不明确的时候)如何选择,
过去常用是ε-greedy,Boltzmann, bootstrapping, and intrinsic-reward-based ,
我们的方法:使用thompson sampling,从一个 Bayes-by-Backprop的网络抽取蒙特卡洛样本
创新:

  • thompson sampling:基于贝叶斯思想,全部用概率分布来表达不确定性。
    • 在每一次选择时,都根据上一个最优动作的后验概率分布来确定下一个动作如何选。;;;;已知的初始动作值分布,然后每一步都更新这个分。。如果给定足够多的次数的话,我们可以考虑所有的行动,以及每个行动下的所有可能奖励,然后计算,挑出最好的。
  • 蒙特卡洛样本:
  • Bayes-by-Backprop的网络:
    假设一个L层的MLP网络,每一层是w = {Wl, bl}l=1到L: yˆ = WL · φ(WL−1 · …· φ(W1 ·x+b1)+…+bL−1)+bL, φ 是激活函数。
    给w加一个先验分布。然后学习参数w的后验分布。p(w|D) ∝ p(w)p(D|w)。D = {xi,yi}i从1到N,是训练集。但是这样不可导。所以使用q(w|θ)来近似前面的数学设定。
    θ = {(μi,ρi)}Di=1,σi = log(1 + exp(ρi)),wi 从正态分布N(μi,σi2)中抽样,即服从Gaussian分布。
    使用KL散度来使q(w|θ)近似p(w|D)。
    具体的优化目标是 f(D,θ) = log q(w|θ) − log p(w) − log p(D|w)。

但是还不明白和贝叶斯有什么关系

具体过程:使用Q-learning。使用bayes网络来近似Q函数。使用MLP网络而不是CNN或者RNN。使用DQN,有两个网络。

BBQN with intrinsic reward:
不是很明白,主要是一种trick,目的是
https://zhuanlan.zhihu.com/p/48042454
在这里插入图片描述
实验结果
很不错

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值