对话系统论文集(5)--online active learning2016

解决问题:
online学习中
将人类的显性反馈作为reward–不可信、很难获得
数据集小的情况也可以,因为方法很有效
方法可以使得尽量少使用feedback。大多数用的是reward自己判断的成功率。
人工评判标准obj和sbj对于某些对话不一样,而且当不一样的时候训练出来的结果不好;user simulator引导对话可能出偏差,使得obj和sbj不一样
背景:

  • 关于客观评判标准(对话完成预设置的所有任务)和主观评判标准(user问的都回答了),有时候不一致,

创新
RNN将对话表示成固定长度的representation,
Gaussian过程 预测成功率预测正确的不确定性 (需要1的前处理)
active learning清洗出合理的有用的feedback(要不然就用自己的评判标准)
学习的所有过程都是on-line进行

重点讲解高斯过程:

1)预测P(y|d,D),y是对话是否成功(-1,+1),d是对话表示,D是分类好的对话池,相当于d的数据库
p ( y = 1 ∣ d , D ) = p(y=1|d,D) = p(y=1d,D)= ϕ \phi ϕ ( f ( d ∣ D ) ) (f(d|D)) (f(dD)),其中f(d|D)是一个隐函数, ϕ \phi ϕ是一个N(0,1)分布的密度累计函数。
f(d|D): f ( d ) f(d) f(d)~ G P ( m ( d ) , k ( d , d ′ ) ) GP( m(d),k(d,d')) GP(m(d),k(d,d)),GP是高斯过程先验分布,m是均值,k是协方差,

p,l和 σ n \sigma_n σn是 通过梯度策略优化marginal likelihood。
因为 ϕ \phi ϕ不是高斯,整个可导的,使用EP(不明白)


高斯过程先验分布(Gaussian process prior):
因为公式(3)看不懂,d‘从何而来。
高斯过程:
任意个点(对应不同时刻的随机变量)联合需要服从多元高斯分布!既然是满足多元高斯分布,那么必定需要一个确定的mean和确定的covariance 吧。反过来说,若是给定一个mean和covariance,那么自然不同时刻的随机变量的出现的整体位置和相关情况也就被限定住啦 。
可以通过老的X,y和X’,判断出 y。是一种回归问题。先找到X和X’的相关性,就可以确定y和y‘之间的关系,然后推断出y‘。


2)给出一个值λ,在【1-λ,λ】中判断p(y∗ = 1|d∗,D)是否在里面。如果在,就是用我们的label函数,如果不在,就在线使用用户的feedback。
3)关于active learning(很早就有):
在标注数据较少的情况下,学习算法可以主动地提出一些标注请求,将一些经过**筛选的数据(没有label)**提交给专家进行标注。先专家标注一部分数据开始训练,然后选出信息量较大对训练帮助的未标注数据进行训练。
实验结果:
reward设置的过于简单,只有成功率,其他维度的评判标准。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值