对话系统论文集（1）-BBQ网络

最新推荐文章于 2023-02-22 22:08:28 发布

zixufang

最新推荐文章于 2023-02-22 22:08:28 发布

阅读量616

点赞数

分类专栏：对话系统&强化学习

本文链接：https://blog.csdn.net/yagreenhand/article/details/87872473

版权

对话系统&强化学习专栏收录该内容

32 篇文章 3 订阅

订阅专栏

BBQ-Networks: Efficient Exploration in Deep Reinforcement Learning for Task-Oriented Dialogue Systems

问题：
提高exploration的效率；比ε-greedy, Boltzmann, bootstrap- ping, and intrinsic-reward-based都好

背景：

在探索下一个动作的时候（特别是目标很不明确的时候）如何选择，
过去常用是ε-greedy，Boltzmann, bootstrapping, and intrinsic-reward-based ，
我们的方法：使用thompson sampling，从一个 Bayes-by-Backprop的网络抽取蒙特卡洛样本
创新：

thompson sampling：基于贝叶斯思想，全部用概率分布来表达不确定性。
- 在每一次选择时，都根据上一个最优动作的后验概率分布来确定下一个动作如何选。；；；；已知的初始动作值分布，然后每一步都更新这个分。。如果给定足够多的次数的话，我们可以考虑所有的行动，以及每个行动下的所有可能奖励，然后计算，挑出最好的。
蒙特卡洛样本：
Bayes-by-Backprop的网络：
假设一个L层的MLP网络，每一层是w = {Wl, bl}l=1到L: yˆ = WL · φ(WL−1 · …· φ(W1 ·x+b1)+…+bL−1)+bL, φ 是激活函数。
给w加一个先验分布。然后学习参数w的后验分布。p(w|D) ∝ p(w)p(D|w)。D = {xi,yi}i从1到N，是训练集。但是这样不可导。所以使用q(w|θ)来近似前面的数学设定。
θ = {(μi,ρi)}Di=1，σi = log(1 + exp(ρi))，wi 从正态分布N(μi,σi2)中抽样，即服从Gaussian分布。
使用KL散度来使q(w|θ)近似p(w|D)。
具体的优化目标是 f(D,θ) = log q(w|θ) − log p(w) − log p(D|w)。

~~但是还不明白和贝叶斯有什么关系~~

具体过程：使用Q-learning。使用bayes网络来近似Q函数。使用MLP网络而不是CNN或者RNN。使用DQN，有两个网络。

BBQN with intrinsic reward：
不是很明白，主要是一种trick，目的是
https://zhuanlan.zhihu.com/p/48042454
在这里插入图片描述
实验结果：
很不错

zixufang

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
对话系统论文集（1）-BBQ网络

BBQ-Networks: Efficient Exploration in Deep Reinforcement Learning for Task-Oriented Dialogue Systems在探索下一个动作的时候如何选择，过去常用是ε-greedy，Boltzmann, bootstrapping, and intrinsic-reward-based ，我们的方法：使用thom...
复制链接

扫一扫

专栏目录