KADT:Learning Data T eaching Strategies Via Knowledge Tracing

翻译:

摘要

教学在人类学习中起着基础性的作用。一般来说,人类的教学策略包括评估学生的知识进步,从而调整教学材料,以提高学习进步。人类教师可以通过在任务中追踪学生对重要学习概念的知识来实现这一点。然而,这种教学策略在机器学习中还没有得到很好的利用,因为目前的机器教学方法倾向于直接评估单个训练样本的进展,而没有注意到学习任务中潜在的学习概念。在本文中,我们提出了一种新的方法,称为知识增强数据教学(KADT),它可以通过跟踪学习任务中多个学习概念的知识进度来优化学生模型的数据教学策略。具体而言,该方法引入了一个知识跟踪模型,根据潜在的学习概念动态捕捉学生模型的知识进展。然后,我们开发了一种注意力集中机制,以提取与类标签相关的学生模型的知识表示,这使我们能够在关键训练样本上制定数据教学策略。我们已经评估了KADT方法在四个不同的机器学习任务上的性能,包括知识跟踪、情感分析、电影推荐和图像分类。结果与最先进的方法比较,实证验证了KADT始终优于其他所有任务。

1 介绍

消化知识的能力一直是人类智力的一个重要特征。众所周知,学生的学习成绩不仅取决于学生对不同学习理念的消化能力,而且还受到老师的教学策略的显著影响。一个好的老师会优化学习材料、练习和解决问题技巧的教学策略,使学生能够实现她的学习目标。这通常是通过在一个学习任务中跟踪学生对重要学习概念的知识进展来完成的,例如,小学数学课程中的加法、减法和乘法。人类教师可以根据学生的表现水平来发展这样的教学策略。这种教学策略的发展演变是充分发挥学生不同层次潜能的关键。
一个问题是:机器能像人类老师一样学习教学吗?在机器学习场景中,教学策略通常包括排序训练数据(相当于人类学习中的学习材料)、选择损失函数(相当于人类学习中的评估)、以及假设函数的超参数配置(相当于人类学习中的问题解决技术)。机器可以针对这些教学维度中的一个或多个发展出有效的教学策略。
在过去的几年里,对一个机器学习学生模型的训练程序进行了一些优化的尝试。课程学习方法[1]、[2]、[3],旨在根据训练样本的难度等级对其进行排序,构建一个适合学生学习的课程模型。同样,自定步调学习(SPL)方法[4],[5],[6]使用硬度阈值,随着学生的进步逐渐增加,以建立训练数据课程。机器教学方法[7],[8]侧重于选择最优的训练样本,以最小化教学成本(例如,训练集的大小)。动态损失函数[9]和分级优化[10]方法根据学生的学习进度调整损失函数的难度。尽管取得了相当大的进展,这些方法要么依赖启发式规则(例如,硬度或难度阈值),要么假设预定义的学生模型来驱动教学策略。
最近,强化学习(RL)被提出用于开发教学策略[9],[11]。一般来说,它包括两个组成部分:教师模型和学生模型。教师模式旨在优化教学策略,而学生模式则遵循教学策略来优化其学习目标。然而,这些现有的作品有一些局限性。首先,他们依赖于手工制作的状态,忽略了一个事实,即学生模型可能在学习任务中对不同的学习概念有不同的表现。其次,它们要求基于状态空间上的稀疏奖励函数,为每个学习任务仔细分配目标表现阈值(例如,只有当学生模型的表现超过指定的阈值时,才对教师模型进行积极奖励)。这需要特定任务的专业知识在RL培训期间落地有效的教学政策[12]。
为了解决这些局限性,我们提出了一个新的框架来发展数据教学策略,即知识增强数据教学(KADT)。在其核心,KADT方法配备了强大的表示学习能力,通过利用知识跟踪技术[13]、[14]、[15]来捕捉学生模型的表现。具体而言,该方法采用键值记忆体系结构,根据学习任务中涉及的基本学习概念来学习学生模型的知识进展。这提供了几个学习优势:(a)它提供了在不同的学习任务中从训练样本自动学习潜在学习概念的能力,而不明确需要任何先验知识。(b)它可以动态跟踪学生模型在一项学习任务的学习概念上的表现随时间的变化(即在教学过程中)。
除此之外,KADT方法整合了几种新颖的RL设计,以便利用学生模型的能力,并开发与其能力相匹配的数据教学策略,以帮助学生模型尽可能地发挥最佳性能。(1)它使用一个注意池技术,通过跟踪样本的潜在学习概念的表示,提取学生模型关于类标签的知识表示。(2)它直接基于数据教学策略来选择行动,与比较RL方法[11]相比,后者的行动取决于用于控制行动空间复杂性的先发制人的随机抽样的结果。(3)采用密集奖励函数,不需要任何人工努力来决定奖励。然而,像[11]中的稀疏奖励函数需要选择一个只允许积极奖励的阈值。手动指定一个好的奖励阈值是困难的,特别是对于复杂的学习任务。
贡献。
•我们提出了一种新的教学方法,称为KADT,通过学生模型、知识跟踪模型和教学代理之间的交互,实现了知识表示学习和教学策略学习的耦合优化。
•我们设计了一种知识表示学习技术,可以动态跟踪学生模型在任何监督学习任务中不同学习概念的表现。
•我们提出了一种高效的门控关注池机制,该机制从涉及类标签的学生模型的知识池表示中提取状态表示,同时考虑到个体训练样本的重要性。
•我们在四种不同类型的学习任务中对比最先进的方法评估了KADT方法。实验结果验证了KADT方法在所有任务上都优于其他方法。

大纲。
本文的提醒内容组织如下。第2节介绍问题定义。第3节描述了我们的方法。第4节介绍实验设计。第5节讨论了评价结果。第6节回顾了相关工作,并在第7节对本文进行了总结

2 问题定义

在本文中,我们的目标是开发一个强化学习框架,其中教师模型可以根据学生模型的表现动态优化数据教学策略。

3 方法

在本节中,我们将介绍我们提出的方法,即知识增强数据教学(KADT)。图2说明了KADT的体系结构。给定一个处理有监督学习任务的学生模型,KADT使用一个知识跟踪模型来跟踪执行该监督学习任务的学生模型的知识,并使用一个教学代理来优化学生模型的数据教学策略,以最大化其性能。
在这里插入图片描述
图2:提出的KADT方法的体系结构,包括三个主要组成部分:学生模型、知识追踪模型和教学代理。

3.1学生知识追踪

参考DKVMN思想

3.2数据教学策略

在本研究中,我们设计了一个强化学习框架下的教师模型,称为教学主体。教学代理旨在优化由KT模型学习的学生模型的知识表示所引导的学生模型的教学政策(即数据教学策略)。

4 实验设计

5 结果和讨论

6 相关工作

7 结论

在这项工作中,我们提出了一种新的方法KADT,它能够在数据教学策略的演变过程中,通过潜在的学习概念动态地学习学生模型的知识表示。因此,不需要在不同的学习任务中手动设计或校准状态。此外,KADT是在RL框架中开发的,具有几个新颖的设计选择,在不同的学生模型和学习任务中提供了更好的泛化。我们比较了KADT和目前最先进的方法。结果表明,在四种学习任务中,KADT方法始终优于这些方法。在未来的工作中,我们将探讨教学策略的其他方面,包括损失函数和假设函数。此外,我们将探讨元学习方法的教学策略优化。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值