对话系统论文集（5）--online active learning2016

最新推荐文章于 2023-08-11 15:40:37 发布

zixufang

最新推荐文章于 2023-08-11 15:40:37 发布

阅读量284

点赞数

分类专栏：对话系统&强化学习

本文链接：https://blog.csdn.net/yagreenhand/article/details/87978756

版权

对话系统&强化学习专栏收录该内容

32 篇文章 3 订阅

订阅专栏

解决问题：
online学习中
将人类的显性反馈作为reward–不可信、很难获得
数据集小的情况也可以，因为方法很有效
方法可以使得尽量少使用feedback。大多数用的是reward自己判断的成功率。
人工评判标准obj和sbj对于某些对话不一样，而且当不一样的时候训练出来的结果不好；user simulator引导对话可能出偏差，使得obj和sbj不一样
背景：

关于客观评判标准（对话完成预设置的所有任务）和主观评判标准（user问的都回答了），有时候不一致，

创新：
RNN将对话表示成固定长度的representation，
Gaussian过程预测成功率和预测正确的不确定性 （需要1的前处理）
active learning清洗出合理的有用的feedback（要不然就用自己的评判标准）
学习的所有过程都是on-line进行

重点讲解高斯过程：

1）预测P（y|d，D），y是对话是否成功（-1，+1），d是对话表示，D是分类好的对话池，相当于d的数据库
$p (y = 1 ∣ d, D) =$ $\phi$ $(f (d ∣ D))$ ，其中f(d|D)是一个隐函数， $\phi$ 是一个N（0，1）分布的密度累计函数。
f(d|D)： $f (d)$ ~ $G P (m (d), k (d, d^{'}))$ ,GP是高斯过程先验分布，m是均值，k是协方差，

p,l和 $\sigma_n$ 是通过梯度策略优化marginal likelihood。
因为 $\phi$ 不是高斯，整个可导的，使用EP（不明白）

高斯过程先验分布（Gaussian process prior）：
因为公式（3）看不懂，d‘从何而来。
高斯过程：
任意个点（对应不同时刻的随机变量）联合需要服从多元高斯分布！既然是满足多元高斯分布，那么必定需要一个确定的mean和确定的covariance 吧。反过来说，若是给定一个mean和covariance，那么自然不同时刻的随机变量的出现的整体位置和相关情况也就被限定住啦。
可以通过老的X，y和X’，判断出 y。是一种回归问题。先找到X和X’的相关性，就可以确定y和y‘之间的关系，然后推断出y‘。

2）给出一个值λ，在【1-λ，λ】中判断p(y∗ = 1|d∗,D)是否在里面。如果在，就是用我们的label函数，如果不在，就在线使用用户的feedback。
3）关于active learning（很早就有）：
在标注数据较少的情况下，学习算法可以主动地提出一些标注请求，将一些经过**筛选的数据(没有label)**提交给专家进行标注。先专家标注一部分数据开始训练，然后选出信息量较大对训练帮助的未标注数据进行训练。
实验结果：
reward设置的过于简单，只有成功率，其他维度的评判标准。