Interpretable knowledge tracing Simple and efficient student modeling with causal relations-2022

step602

已于 2022-09-15 17:55:09 修改

阅读量674

点赞数 1

分类专栏：知识追踪文章标签：机器学习人工智能数据挖掘

于 2022-09-15 15:41:51 首次发布

本文链接：https://blog.csdn.net/weixin_45774904/article/details/126872602

版权

知识追踪专栏收录该内容

13 篇文章

订阅专栏

写在前面：

本篇文献不同于以往的深度知识追踪模型，它通过数据挖掘技术抽取三个显著特征并结合Tree-Augmented Naive Bayes Classifier (TAN)进行最后的结果预测，有显著的可解释性。

1 摘要

智能辅导系统在未来的学习环境中变得至关重要。知识追踪 (KT) 是该系统的关键部分。它是关于推断学生的技能掌握情况并预测他们的表现以相应地调整课程。与传统模型相比，基于深度学习的 KT 模型显示出显着的预测性能。然而，很难从神经网络中数以万计的参数中提取出具有心理意义的解释，这与认知理论有关。有几种方法可以在学生表现预测中实现高精度，但诊断和预测推理在学习科学中更为关键。由于 KT 问题几乎没有可观察到的特征（问题 ID 和学生在每次练习中的正确性），我们使用机器学习和数据挖掘技术从学生的响应数据中提取有意义的潜在特征。在这项工作中，我们提出了可解释的知识追踪 (IKT)，这是一个简单的模型，它依赖于三个有意义的潜在特征：个人技能掌握、能力概况（跨技能的学习转移）和问题难度。 IKT 对未来学生表现的预测是使用树增强朴素贝叶斯分类器 (TAN) 进行的，因此它的预测比基于深度学习的学生模型更容易解释。在不需要大量参数的情况下，IKT 还显示出比基于深度学习的学生模型更好的学生表现预测。我们对每个特征进行消融研究，以检查它们对学生表现预测的贡献。因此，IKT 具有在现实世界教育系统中提供具有因果推理的自适应和个性化教学的巨大潜力。

2 相关定义

在本文中，我们试图通过特征工程和简单的概率图形模型来提供有意义的解释。因此，我们提出了一种新的学生模型，称为可解释的知识追踪（IKT），通过利用三个有意义的特征：概念掌握(skill mastery)、学生的能力概况（习题的学习迁移-ability profile）和问题难度(problem difficulty)。我们首先利用传统的机器学习技术，例如隐马尔可夫模型和 kmeans 聚类来提取有意义的特征，然后使用树增强朴素贝叶斯分类器(Tree Augmented Naive Bayes classifier)将提取的特征结合起来，以推断未来问题的正确性。与一系列的DKT 相比，IKT 是一种新颖的模型，它通过具有有意义特征的概率图形模型提供推理解释，同时在学生表现预测任务中保持较高的预测性能。

KT 可以看作是一个有监督的序列学习问题。 KT 模型给出了学生过去与系统的交互，包括：习题 $S=(s_1,s_2,\dots,s_t)\in \{ 1,\dots, M\}^t$ 以及作答结果 $R=(r_1,r_2,\dots,r_t)\in \{0,1\}^t$ ，并预测预测下一个问题得到正确答案的概率。
其主要取决于对与问题 $P=(p_1,p_2.\dots,p_t)$ 相关的知识概念 s 的掌握程度。所以可以将得到正确答案的概率定义为 $p(r_t=1|s_t,X)$ 其中 $X=(x_1,x_2,\dots,x_{t-1})$ ， $x_k=(s_k,r_k)$ 是一个元组，内容是在时间 k 上习题 $s_k$ 作答结果 $r_k$ 。

3 可解释性知识追踪(IKT)

当学生通过智能辅导系统（ITS）学习时，即使对与某些问题相关知识点有很高的掌握程度，学生也可能对这些问题给出错误答案。我们倾向于将这种情况视为对习题的误解，或者在新情况下未能在特定问题中正确运用相关知识点。因此可以假设其他因素，例如能力概况（习题的学习迁移）或当前时间戳发生的问题的难度，对情况有直接影响。

为了在 ITS 中采用上述假设，提出了一个由三种数据挖掘技术组成的特征提取过程。然后，我们不是在基于深度学习的 KT 模型中将所有数据都输入到神经网络，而是提出了一种称为可解释知识追踪 (IKT) 的学生模型，该模型可以依靠三个有意义的潜在特征来预测学生未来的反应：概念掌握、能力概况（跨技能）和问题难度。

3.1 通过特征提取实现可解释性

我们的程序从学生的反应数据中提取三个有意义的潜在特征：技能掌握、能力概况、问题难度。这些特征告诉我们学生对知识概念的掌握程度，学生拥有什么样做题能力，以及每个时间戳出现的问题有多难。不是获取学生过去的交互序列（二进制值）并在基于深度学习的 KT 模型的隐藏状态中学习所有信息，而是通过使用这些潜在特征作为每个时间戳的证据来推断问题的正确性。

知识追踪

概念掌握程度的计算公式受到贝叶斯知识追踪 (BKT) 中对概念掌握（学习习题 $s_t$ 知识点的概率）的评估的启发，贝叶斯知识追踪 (BKT) 是一种基于隐马尔可夫模型的具有心理意义参数的众所周知的知识追踪模型。 BKT 推断掌握状态，从“未学习”到“学习”，上述概率取决于固定参数和时间戳 t 处的状态。

在这里插入图片描述

图 1：每个时间戳的概念掌握评估。每个习题的建模都是独立完成的，它们之间不会相互作用。

对于某个习题 $s\in S$ ，BKT 由四个代表概率的参数组成：

$P(L_0)$ ：学生在尝试与 s 相关的第一个问题之前做对该习题的概率；
$P (T)$ ：当前未做对该习题的学生在下一次练习机会后做对该习题的概率；
$P (G)$ ：一个学生没有掌握相应知识概念（猜测）的情况下猜出一个问题的正确答案的概率；
$P (S)$ ：学生在掌握相应知识概念（失误）的情况下回答错误的概率。

应用蛮力(brute-force)搜索算法来拟合 BKT。拟合BKT后可以得到每个习题的 $P(L_0), P(T), P(G), P(S)$ 。BKT 基于习题的建模，可以根据得到结果 obs 正确（obs = 1）或不正确（obs = 0）提供每个习题的相应知识掌握情况：
$P(L_t|1)=\frac{P(L_t)(1-P(S))}{P(L_t)(1-P(S))+(1-P(L_t))P(G)}\tag{1}$

$P(L_t|0)=\frac{P(L_t)P(S)}{P(L_t)P(S)+(1-P(L_t))(1-P(G))}\tag{2}$

$P(L_{t+1})=P(L_t|obs)+(1-P(L_t|obs))P(T)\tag{3}$

结合上面三个公式就可以得到习题知识概念的掌握程度：
$\ mastery(s_t)=\delta(P(L_t),s_t)\tag{4}$
其中 $\delta(P(L_t),s_t)$ 是一个函数，它在整个学生交互中映射特定习题 $s_t$ 在当前时间戳的习题概念掌握情况。

请注意，习题概念掌握程度是学习习题 $s_t$ 的概率，而不是学生在 BKT 中正确作对习题的概率。为每习题训练一个 BKT 模型，每个习题模型的输入是学生对该单一习题的二元响应。整个练习过程中的其他交错习题被忽略。每个习题模型都是独立的，所以在这个组件中没有考虑跨习题的学习迁移。

能力概况(Ability Profiling)

学习迁移意味着学生可以将他们获得的技能转移到新的环境中，并跨越涉及不同技能组合的问题。学习因素分析 (LFA) 和性能因素分析 (PFA) 等 ITS 模型旨在捕捉这种学习迁移现象。他们引入了一个因素，该因素代表通过实践积累的所有习题的学习，然后利用该因素作为进一步实践成功的预测指标。这些模型在没有习题转移机制的情况下优于标准 BKT 模型，并为考虑习题转移的重要性提供了新的思路。

在这里插入图片描述

图 2：在每个时间间隔检测学生的能力概况

为了检测长期学习过程中跨技能学习迁移的规律变化，我们受到了 DKT-DSC 工作的启发（Minn et al 2018）。我们重新制定学生的能力概况并在不牺牲其独创性和表现的情况下对其进行简化。它将学生的互动划分为多个时间间隔，然后对学生过去的表现进行编码，以估计他们在当前时间间隔的能力概况。能力概况文件被编码为集群 ID，并根据长度等于习题数量的性能向量（使用公式 6）计算，并在每个时间间隔后通过使用每个习题的所有先前尝试进行更新。来自过去尝试每个习题的成功率的数据被转换为一个性能向量，用于在时间间隔 1:z 处对学生 i 进行聚类，如下所示（为简洁起见，我们在公式 5 中省略了用 i 索引所有术语）：
$R(x_j)_{1:z}=\sum_{t=1}^{z}\frac{(x_{jt})}{|N_{jt}|}\tag{5}$

$d_{1:z}^i=(R(x_1)_{1:z},R(x_2)_{1:z},\dots ,R(x_n)_{1:z})\tag{6}$

$x_{jt}$ 是在时间 t 尝试做答习 $x_j$ 的结果； 1 表示尝试成功，0 表示尝试不成功；
$N_{jt}|$ 是时间间隔z内做题的总次数
n是习题的总数量
$R(x_j)_{1:z}$ 表示学生 i 从时间1 到当前时间 z 正确回答习题 $x_j$ 的比率。这是针对所有习题 $(x_1,x_2,\dots,x_n)$ 计算的；
$d_{1:z}^i$ 表示学生 i 从时间 1 到 z 在所有习题上的表现向量。

如果学生在 0:z 时间间隔内没做题，我们将 0.5 的比率分配给 $R(x_j)_{1:z}$ 。

因此，数据包含学生过去表现的编码向量，并在每个时间间隔后累积和更新。时间间隔z和学生i在训练过程中被忽略，只在以后的聚类过程中使用。然后，k-means 算法用于评估学生在每个时间间隔 z 的训练和测试中的时间长期学习能力，通过在 DKT-DSC 中测量训练过程后达到的质心欧几里得距离。

在学习了所有簇的质心后，每个学生 i 在每个时间间隔 z 被分配到最近的簇 $C_c$ ，公式如下：
$\ profile(ab_z)=\underset{C}{arg\ min}\sum_{c=1}^{K}\sum_{{d_{1:z-1}^i} \in C_c}||{d_{1:z-1}^i} -\mu_c||^2 \tag{7}$
其中质心 $\mu_c$ 是集群 $C_c$ 的点的平均值，性能向量 $d_{1:z-1}^i$ 是学生 i 从时间 1 到 z − 1 的平均表现数据。

学生被分配到最近的集群，该集群的标签 $ab_z$ 代表时间间隔 z 的时间学生学习能力。在前 20 次尝试后开始评估，然后每 20 次尝试由学生进行一次。在第一个时间间隔内，所有学生都被分配了初始能力配置文件 1。

评估习题难度

问题难度是在先前研究中预测学生表现的一个显着特征。请注意，在本研究中，假设每个习题都与一个知识概念相关，但难度与很多问题相关，而不是与概念本身相关。问题 $p_j$ 的难度以 1 到 10 的等级确定。问题难度 ( $p_j$ ) 的计算公式为：
$\ level(p_j)= \begin{cases} \delta(p_j) & if|N_j|\geq4 \\5 & otherwise \end{cases} \tag{8}$

$\delta(p_j)=\big\lfloor \frac{\sum_{i}^{|N_j|}O_i(p_j)}{|N_j|}*10 \big\rfloor\tag{9}$

$p_j$ 表示第j个习题
$N_j$ 表示尝试习题的 $p_j$ 的总数
$O_i(p_j)$ 学生 i 第一次尝试问题 $p_j$ 的结果，如果成功则为 1，否则为 0

$\delta(p_j)$ 是将问题 $p_j$ 的平均成功率映射到 10 个级别的函数。未见过的问题、没有任何记录的问题以及数据集中少于 4 个学生 $N_j<4|)$ 做过的的问题的难度设置为 5。

3.2 可解释的学生表现预测

使用 Tree Augmented Naive Bayes 方法进行预测，TAN 结构是朴素贝叶斯网络的简单扩展。与朴素贝叶斯一样，根节点是类节点（class node 问题的正确性），与证据节点（evidence node 习题 ID、概念掌握、能力概况和问题难度）有因果关系。此外，TAN 结构放宽了证据节点之间独立性的假设。它允许大多数证据节点可以有另一个父节点，可以是相关的证据节点。该模型继承了有向无环图结构，并生成了一个捕获证据节点之间关系的树。这种结构的学习比一般的贝叶斯网络计算成本低，并且比在 DKT 中构建用于知识追踪的神经网络更具成本效益。图 3 显示了一个示例 TAN 结构。类节点是正在考虑的学生的正确性假设。其他节点代表特定学生在时间 t 的表现假设的支持证据。证据节点之间的依赖关系被捕获为 TAN 结构中的附加因果关系。即使箭头的方向代表两个节点之间的因果关系，信息也可以根据推理过程向任何方向流动。

在这里插入图片描述

TAN结构通过最小加权生成树 (MWST) 方法进行学习得到，该方法构建最小生成树以捕获证据节点之间的依赖关系，然后将类节点连接到所有证据节点）。使用数据挖掘工具Weka运用MWST算法进行学习。

IKT 通过使用三个有意义的提取特征 $f_t$ 进行推理：概念掌握、能力概况和问题难度作为当前时间戳 t 的推理依据：
$P(correctness_t=y|f_t)=\frac{P(y)P(f_t|y)}{\sum \acute{y}P(\acute{y})P(f_t|\acute{y})}\tag{10}$

$\pmb{其中} \begin{align} P(f_t|y)=& P(s_t|y)P(\pmb{ability \ profile}(ab_z)|y,s_t)\\ &P(\pmb{problem \ difficulty}(P_j)|y,s_t)\\ &P(\pmb{skill\ mastery}(s_t)|y,s_t) \end{align}$

这些是在时间 t 评估学生 i 在习题 s 上的概念掌握 ( $s_t$ )、学生 i 在当前时间间隔 z 的时间能力概况 ( $ab_z$ ) 和在时间 t上 $P_j$ 的问题难度

类节点（正确性）表示学生用相关技能正确回答问题的预测概率。因此，可以从正确性中检索与习题 $s_t$ 相关的问题的预测，如图 3 所示。可以通过每个节点的条件概率表及其因果关系来实现解释。我们可以通过每个时间戳的证据来检测学生是否存在练习技能不足或习题对个别学生来说太难的问题，从而追溯学生解决问题失败的原因。