Deep Knowledge Tracing and Dynamic Student Classification for Knowledge Tracing-2018

最新推荐文章于 2022-11-27 16:52:38 发布

step602

最新推荐文章于 2022-11-27 16:52:38 发布

阅读量643

点赞数

分类专栏：知识追踪文章标签：机器学习人工智能算法

本文链接：https://blog.csdn.net/weixin_45774904/article/details/126957830

版权

知识追踪专栏收录该内容

13 篇文章 9 订阅

订阅专栏

写在前面：

本篇文献是在DKT的基础上引入了学习能力这一概念，通过对学生的不同的学习能力进行聚类，形成不同的类别，再进行DKT训练。从而提高DKT模型的表现性能。IKT中提取能力概况特征所采用的方法就是本篇文献学习能力的计算算法。

1 摘要

在智能辅导系统（ITS）中，追踪学生在学习过程中的知识状态已经研究了几十年，以提供更多的支持性学习指导。在本文中，我们提出了一种新的知识追踪模型，i) 捕获学生的学习能力，并以固定的时间间隔将学生动态分配到具有相似能力的不同组中，并且 ii) 将此信息与递归神经网络架构相结合的深度知识追踪。实验结果证实，所提出的模型在预测学生表现方面明显优于众所周知的最先进的学生建模技术。

2 相关工作

2.1 项目反应理论(Item Response Theory - IRT)

IRT 假设学生的知识状态是静态的，并由在考试期间完成习题时的熟练程度来表示。 IRT 对单一习题进行建模，并假设习题是一维的。它为学生 i 分配静态掌握程度 $\theta_i$ 。每个习题 j 都有自己的难度 $\beta_j$ 。 IRT 的主要思想是通过使用学生的能力和项目的难度来估计学生 i 正确回答习题 j 的概率。广泛使用的 IRT 的单参数版本，称为 Rasch 模型，其公式：
$p_j(\theta_i)=\frac{1}{1+e^{-(\theta_i-\beta_j)}}\tag{1}$
Wilson 提出了一种 IRT 模型，该模型的性能优于最先进的知识跟踪模型（当时最优）。其中，使用 Newton-Raphson 方法计算 $\theta_j$ 和 $\beta_j$ 的最大后验 (MAP) 估计。

2.2 贝叶斯知识追踪（Bayesian Knowledge Tracing - BKT）

引入 BKT 是为了在学习环境中进行知识跟踪，在该环境中放弃了对静态知识状态的假设。它还假设每个习题都包含了一种知识概念，但是这个假设在以后的 BKT 工作中被放宽了。标准 BKT对学生某一道习题的知识掌握程度会不断更新四个概率：P (L0) 掌握的初始概率，P (T) 从非掌握到掌握的过渡，P (G) 猜测和 P (S) 失误。

在这里插入图片描述

文章中还介绍了PFA和DKT，我之前的笔记已经介绍过了，就不过多赘述了。

3 DKT-DSC

人类的学习是一个涉及实践的过程：我们通过实践变得精通。然而，学习也受到个人学习能力的影响，或者通过或多或少的练习变得精通。我们将通过少量练习即可精通的能力称为学习能力。基于这个概念，我们提出了一个带有动态学生分类的深度知识跟踪模型（DKT-DSC），评估学生的学习能力并将它分配到具有相似能力的不同学生组中，然后该模型调用 RNN 在不同时间间隔跟踪它在每个不同组中的知识。它可以根据学生的学习能力追踪他们的表现，并随着时间的推移定期重新评估。

3.1 动态评估学生的学习能力和分组

在教育领域的多项研究工作中已经探索了将学生根据他们之前在学习系统中的各种内容上的表现分为具有相似学习能力的不同组，以便为每个组提供更具适应性的指导具有相似能力的学生。每个时间间隔的学生学习能力的动态评估是通过在下一个时间间隔开始之前基于对他们之前的表现历史的评估进行聚类来执行的。

时间间隔

时间间隔是一个包含许多学生尝试回答系统问题的片段。从这个角度来看，时间步一次移动是对问题或练习的一次尝试。

2.分割学生的做题序列

将每个学生的做题序列分割成多个时间间隔有两个目的：1）减少计算负担和用于整个长序列学习的内存空间分配。 2）在每个时间间隔后重新评估学生的学习能力，并动态地将她分配到她所属的组中，用于下一个时间间隔。

在这里插入图片描述

图 1 说明了将学生的 24 次尝试响应序列划分为 5 个段（时间间隔）的示例，其中一个段表示该学生在系统中回答 6 个问题的时间间隔。当学生停止与系统交互时，在最后一个时间间隔内用 -1 表示。每个学生尝试的次数取决于他们在与系统交互期间回答的问题数量。

用于聚类的长期习题编码

学生根据他们的学习能力概况进行分组：他们获得的技能或知识。用于评估学生学习能力的数据可从之前对与特定技能对应的测试项目或练习的尝试中获得。

学习能力概况被编码为长度为习题数量的向量，并在每个时间间隔后通过使用每个习题的所有先前尝试进行更新。将学生先前尝试的每个技能的成功率和失败率之间的差异转化为数据向量，用于在时间间隔 z 处对学生 i 进行聚类，如下所示：

在这里插入图片描述

其中 Correct和 Incorrect 表示学生 i 在时间间隔内 n 个习题 $x_i,x_2,\dots,x_n$ 上正确或错误回答技能 $x_j$ 的比率从1 到当前时间间隔 z。 $N_{jt}|$ 是习题 $x_j$ 在时间间隔 t 内的总练习次数。 $R(x_j)_{1:z}$ 表示在时间间隔 1 到 z 内，学生 i 在技能 j 上正确或不正确的表现之间的差异， $d_{1:z}^i\in D$ 表示包含学生 i 在每项技能上的学习能力概况的向量从时间间隔 1 到 z。每个学生在他们与系统交互的生命周期中可能有不同数量的总时间间隔（见图 3）。

K-means 聚类

通过对数据 D 进行 kmeans 聚类，在每个时间间隔将学生分配到具有相似能力的组中。在聚类训练阶段，我们在不考虑时间间隔索引的情况下找到每个学生组的质心。一旦计算完成，每个组的质心在整个聚类过程中将不再变化。之后，我们在每个时间间隔将学生（在训练和测试数据中）分配到不同的组中（见图 2）。

在这里插入图片描述

当我们在时间间隔 z 找到学生 i 所属的组时，我们使用学习能力概况数据点 $d_{1:z-1}^i$ ，因为我们不应该知道学生 i 在时间间隔 z 的当前尝试。在进行K 类的质心学习后，每个时间间隔 $S_{eg_z}$ 的每个学生通过以下等式分配到最近的类 Cc 中：
$Cluster(s_{tu_i},S_{eg_z})=\mathop{arg\ min}_{C}\sum_{c=1}^{K}\sum_{{d_{1:z-1}^i}\in C_c}||d_{1:z-1}^i -\mu_c||^2\tag{13}$
其中 $\mu_c$ 是聚类集 Cc（一组学生）中点的平均值，能力概况数据 $d_{1:z-1}^i$ 表示学生 i 在时间间隔 1 到 z-1 之前的表现数据。

在这里插入图片描述

图 3. 学生在互动过程中每个时间间隔（每个时间间隔包含 20 次尝试）的学习能力演变。

图 3 展示了 33 名学生的学习能力数据，这些数据基于他们之前的表现和一段时间内的演变。深蓝色 (-1) 表示学生在退出系统时没有任何尝试。第 1 组是每个学生的第一个时间间隔，其余组 (2, …, 5) 使用之前的表现数据 $d_{1:z-1}^i$ 在每个时间间隔 z 处通过 k-means 聚类方法分配。

3.2 深度知识追踪

DKT-DSC 将学生的学习能力整合到 DKT 中，通过动态地将学生分配到具有相似能力的学生组中，从而更好地个性化系统。它放宽了所有学生具有相同能力并且学生的能力随着时间的推移是一致的假设。事实上，学生的能力在不断发展，有些学生可能比其他学生学得更快。

在标准 DKT 中， $x_t$ 是学生交互元组 $x_t=\{s_t,q_t\}$ 的 one-hot 编码向量，表示 $s_t$ 所练习的技能的组合，并指示答案是否正确。但是 DKT-DSC 还需要 $x_t=\{s_t,q_t\}$ 和 $c_t$ ，它是一个组或集群 $Cluster(S_{tu_i},S_{eg_z})$ ，表示 $S_{tu_i}$ 在当前时间间隔 $S_{eg_z}$ 的能力。在隐藏层中，当我们将答题序列分割成多个时间间隔时，每个时间间隔的最后一个节点作为下一个时间间隔的第一个节点 $h_0$ 。输出 $y_t$ 是一个长度与问题数量相同的向量。因此，可以从 $y_t$ 获得下一个问题在 $S_{eg_z}$ 的 $c_t$ 处正确回答的概率。在这方面，公式 7 和 8 对 DKT-DSC 仍然有效。DKT 和 DKT-DSC 的输出 $y_t$ 相同，可提供特定问题的预测概率

在这里插入图片描述

图 4. 每个时间间隔（每个段）中的 DKT-DSC 预测在学生与系统的交互过程中与不同的组（集群）相关联。

图 4 说明了 DKT-DSC 模型如何通过在每个时间间隔（每个段）将学生的学习能力作为不同的组信息进行调整，以提高知识追踪的个性化。输入层每个时间间隔的颜色代表学生在该时间间隔根据她的学习能力属于哪个组。请注意，在不考虑学生能力的情况下，DKTDSC 模型与标准 DKT 模型相同。

通过添加学生所属群体的集群信息 $Cluster(S_{tu_i},S_{eg_z})$ ，我们确保这些高级统计数据仍然可用于模型在整个学年进行预测。这就是 DKT 模型所做的，以同样的方式对待所有学生，而不考虑他们的学习能力。相反，DKT-DSC 采用聚类的方式，通过使用他们在不同时间间隔的能力概况数据，找到一群能力相似的学生。在每个不同的组中跟踪学生的知识可以为学生的表现预测提供更多的有效性。