问题:
答案不应该是惟一的一个,应该多个答案均可。
创新点:
1)给出新的数据集。实际上是一句话两个问题的位置进行交换,例如询问西餐厅的地点和时间。
2)
给不同的答案创造不同的mask向量,来针对当前对话的state进行局部注意。
SL阶段,通过真实对话的回答 直接参与训练。
在RL阶段是,参数先pre-trained自己训练到和SL差不多(不是直接套用产生mask的参数)
不明白预训练到底如何操作的。
实现细节上:
使用memory network
问题:
答案不应该是惟一的一个,应该多个答案均可。
创新点:
1)给出新的数据集。实际上是一句话两个问题的位置进行交换,例如询问西餐厅的地点和时间。
2)
给不同的答案创造不同的mask向量,来针对当前对话的state进行局部注意。
SL阶段,通过真实对话的回答 直接参与训练。
在RL阶段是,参数先pre-trained自己训练到和SL差不多(不是直接套用产生mask的参数)
不明白预训练到底如何操作的。
实现细节上:
使用memory network