问题:
slot多的时候、reward的空间太大(sparse、delayed)难训练-> 提出的学习方法与slot的数量有关
负面例子在训练中比重较小。reward低。
背景知识:
- Curriculum Learning:根据样本的难易程度,简单(slot少)的样本优先学习,复杂的样本后学习
- sparse reward:奖励函数的值太过稀疏。换言之大部分情况下奖励函数在一个状态返回的值都是 0。这就和我们人学习也需要鼓励,学太久都没什么回报就容易气馁。
- Progressive Neural Networks(序列学习):,每一列是一体的,适用于迁移学习,当新的种类来了,旧种类的知识(参数)加入其中
- SL的缺点,在未知类型的对话上表现差
创新点:
curriculum过程:训练数据上,平均slot的数量逐渐增加(低slot数据所占的成分降低)
实验结果: