**问题:**解决reward稀疏问题
**背景:**提出SL先训练;使用intrinsic reward。
**创新点:**将discriminator作为intrinsic reward,即critic的一部分,在每次动作时,有本来critic给出和现在critic给出的结果。
实现细节:
效果提升很高。
未来展望,加快policy的收敛速度,测试在更复杂的对话任务上的表现。
**问题:**解决reward稀疏问题
**背景:**提出SL先训练;使用intrinsic reward。
**创新点:**将discriminator作为intrinsic reward,即critic的一部分,在每次动作时,有本来critic给出和现在critic给出的结果。
实现细节:
效果提升很高。
未来展望,加快policy的收敛速度,测试在更复杂的对话任务上的表现。