写在前面:
本篇文献不同于以往的深度知识追踪模型,它通过数据挖掘技术抽取三个显著特征并结合Tree-Augmented Naive Bayes Classifier (TAN)进行最后的结果预测,有显著的可解释性。
1 摘要
智能辅导系统在未来的学习环境中变得至关重要。知识追踪 (KT) 是该系统的关键部分。它是关于推断学生的技能掌握情况并预测他们的表现以相应地调整课程。与传统模型相比,基于深度学习的 KT 模型显示出显着的预测性能。然而,很难从神经网络中数以万计的参数中提取出具有心理意义的解释,这与认知理论有关。有几种方法可以在学生表现预测中实现高精度,但诊断和预测推理在学习科学中更为关键。由于 KT 问题几乎没有可观察到的特征(问题 ID 和学生在每次练习中的正确性),我们使用机器学习和数据挖掘技术从学生的响应数据中提取有意义的潜在特征。在这项工作中,我们提出了可解释的知识追踪 (IKT),这是一个简单的模型,它依赖于三个有意义的潜在特征:个人技能掌握、能力概况(跨技能的学习转移)和问题难度。 IKT 对未来学生表现的预测是使用树增强朴素贝叶斯分类器 (TAN) 进行的,因此它的预测比基于深度学习的学生模型更容易解释。在不需要大量参数的情况下,IKT 还显示出比基于深度学习的学生模型更好的学生表现预测。我们对每个特征进行消融研究,以检查它们对学生表现预测的贡献。因此,IKT 具有在现实世界教育系统中提供具有因果推理的自适应和个性化教学的巨大潜力。
2 相关定义
在本文中,我们试图通过特征工程和简单的概率图形模型来提供有意义的解释。因此,我们提出了一种新的学生模型,称为可解释的知识追踪(IKT),通过利用三个有意义的特征:概念掌握(skill mastery)、学生的能力概况(习题的学习迁移-ability profile)和问题难度(problem difficulty)。我们首先利用传统的机器学习技术,例如隐马尔可夫模型和 kmeans 聚类来提取有意义的特征,然后使用树增强朴素贝叶斯分类器(Tree Augmented Naive Bayes classifier)将提取的特征结合起来,以推断未来问题的正确性。与 一系列的DKT 相比,IKT 是一种新颖的模型,它通过具有有意义特征的概率图形模型提供推理解释,同时在学生表现预测任务中保持较高的预测性能。
KT 可以看作是一个有监督的序列学习问题。 KT 模型给出了学生过去与系统的交互,包括:习题
S
=
(
s
1
,
s
2
,
…
,
s
t
)
∈
{
1
,
…
,
M
}
t
S=(s_1,s_2,\dots,s_t)\in \{ 1,\dots, M\}^t
S=(s1,s2,…,st)∈{1,…,M}t 以及作答结果
R
=
(
r
1
,
r
2
,
…
,
r
t
)
∈
{
0
,
1
}
t
R=(r_1,r_2,\dots,r_t)\in \{0,1\}^t
R=(r1,r2,…,rt)∈{0,1}t,并预测预测下一个问题得到正确答案的概率。
其主要取决于对与问题
P
=
(
p
1
,
p
2
.
…
,
p
t
)
P=(p_1,p_2.\dots,p_t)
P=(p1,p2.…,pt)相关的知识概念 s 的掌握程度。所以可以将得到正确答案的概率定义为
p
(
r
t
=
1
∣
s
t
,
X
)
p(r_t=1|s_t,X)
p(rt=1∣st,X)其中
X
=
(
x
1
,
x
2
,
…
,
x
t
−
1
)
X=(x_1,x_2,\dots,x_{t-1})
X=(x1,x2,…,xt−1) ,
x
k
=
(
s
k
,
r
k
)
x_k=(s_k,r_k)
xk=(sk,rk) 是一个元组,内容是在时间 k 上习题
s
k
s_k
sk作答结果
r
k
r_k
rk 。
3 可解释性知识追踪(IKT)
当学生通过智能辅导系统(ITS)学习时,即使对与某些问题相关知识点有很高的掌握程度,学生也可能对这些问题给出错误答案。我们倾向于将这种情况视为对习题的误解,或者在新情况下未能在特定问题中正确运用相关知识点。因此可以假设其他因素,例如能力概况(习题的学习迁移)或当前时间戳发生的问题的难度,对情况有直接影响。
为了在 ITS 中采用上述假设,提出了一个由三种数据挖掘技术组成的特征提取过程。然后,我们不是在基于深度学习的 KT 模型中将所有数据都输入到神经网络,而是提出了一种称为可解释知识追踪 (IKT) 的学生模型,该模型可以依靠三个有意义的潜在特征来预测学生未来的反应:概念掌握、能力概况(跨技能)和问题难度。
3.1 通过特征提取实现可解释性
我们的程序从学生的反应数据中提取三个有意义的潜在特征:技能掌握、能力概况、问题难度。这些特征告诉我们学生对知识概念的掌握程度,学生拥有什么样做题能力,以及每个时间戳出现的问题有多难。不是获取学生过去的交互序列(二进制值)并在基于深度学习的 KT 模型的隐藏状态中学习所有信息,而是通过使用这些潜在特征作为每个时间戳的证据来推断问题的正确性。
知识追踪
概念掌握程度的计算公式受到贝叶斯知识追踪 (BKT) 中对概念掌握(学习习题 s t s_t st知识点的概率)的评估的启发,贝叶斯知识追踪 (BKT) 是一种基于隐马尔可夫模型的具有心理意义参数的众所周知的知识追踪模型。 BKT 推断掌握状态,从“未学习”到“学习”,上述概率取决于固定参数和时间戳 t 处的状态。
图 1:每个时间戳的概念掌握评估。每个习题的建模都是独立完成的,它们之间不会相互作用。
对于某个习题 s ∈ S s\in S s∈S,BKT 由四个代表概率的参数组成:
- P ( L 0 ) P(L_0) P(L0):学生在尝试与 s 相关的第一个问题之前做对该习题的概率;
- P ( T ) P(T) P(T):当前未做对该习题的学生在下一次练习机会后做对该习题的概率;
- P ( G ) P(G) P(G):一个学生没有掌握相应知识概念(猜测)的情况下猜出一个问题的正确答案的概率;
- P ( S ) P(S) P(S):学生在掌握相应知识概念(失误)的情况下回答错误的概率。
应用蛮力(brute-force)搜索算法来拟合 BKT。拟合BKT后可以得到每个习题的
P
(
L
0
)
,
P
(
T
)
,
P
(
G
)
,
P
(
S
)
P(L_0), P(T), P(G), P(S)
P(L0),P(T),P(G),P(S)。BKT 基于习题的建模,可以根据得到结果 obs 正确(obs = 1)或不正确(obs = 0)提供每个习题的相应知识掌握情况:
P
(
L
t
∣
1
)
=
P
(
L
t
)
(
1
−
P
(
S
)
)
P
(
L
t
)
(
1
−
P
(
S
)
)
+
(
1
−
P
(
L
t
)
)
P
(
G
)
(1)
P(L_t|1)=\frac{P(L_t)(1-P(S))}{P(L_t)(1-P(S))+(1-P(L_t))P(G)}\tag{1}
P(Lt∣1)=P(Lt)(1−P(S))+(1−P(Lt))P(G)P(Lt)(1−P(S))(1)
P ( L t ∣ 0 ) = P ( L t ) P ( S ) P ( L t ) P ( S ) + ( 1 − P ( L t ) ) ( 1 − P ( G ) ) (2) P(L_t|0)=\frac{P(L_t)P(S)}{P(L_t)P(S)+(1-P(L_t))(1-P(G))}\tag{2} P(Lt∣0)=P(Lt)P(S)+(1−P(Lt))(1−P(G))P(Lt)P(S)(2)
P ( L t + 1 ) = P ( L t ∣ o b s ) + ( 1 − P ( L t ∣ o b s ) ) P ( T ) (3) P(L_{t+1})=P(L_t|obs)+(1-P(L_t|obs))P(T)\tag{3} P(Lt+1)=P(Lt∣obs)+(1−P(Lt∣obs))P(T)(3)
结合上面三个公式就可以得到习题知识概念的掌握程度:
s
k
i
l
l
m
a
s
t
e
r
y
(
s
t
)
=
δ
(
P
(
L
t
)
,
s
t
)
(4)
skill \ mastery(s_t)=\delta(P(L_t),s_t)\tag{4}
skill mastery(st)=δ(P(Lt),st)(4)
其中
δ
(
P
(
L
t
)
,
s
t
)
\delta(P(L_t),s_t)
δ(P(Lt),st)是一个函数,它在整个学生交互中映射特定习题
s
t
s_t
st 在当前时间戳的习题概念掌握情况。
请注意,习题概念掌握程度是学习习题 s t s_t st 的概率,而不是学生在 BKT 中正确作对习题的概率。为每习题训练一个 BKT 模型,每个习题模型的输入是学生对该单一习题的二元响应。整个练习过程中的其他交错习题被忽略。每个习题模型都是独立的,所以在这个组件中没有考虑跨习题的学习迁移。
能力概况(Ability Profiling)
学习迁移意味着学生可以将他们获得的技能转移到新的环境中,并跨越涉及不同技能组合的问题。学习因素分析 (LFA) 和性能因素分析 (PFA) 等 ITS 模型旨在捕捉这种学习迁移现象。他们引入了一个因素,该因素代表通过实践积累的所有习题的学习,然后利用该因素作为进一步实践成功的预测指标。这些模型在没有习题转移机制的情况下优于标准 BKT 模型,并为考虑习题转移的重要性提供了新的思路。
图 2:在每个时间间隔检测学生的能力概况
为了检测长期学习过程中跨技能学习迁移的规律变化,我们受到了 DKT-DSC 工作的启发(Minn et al 2018)。我们重新制定学生的能力概况并在不牺牲其独创性和表现的情况下对其进行简化。它将学生的互动划分为多个时间间隔,然后对学生过去的表现进行编码,以估计他们在当前时间间隔的能力概况。能力概况文件被编码为集群 ID,并根据长度等于习题数量的性能向量(使用公式 6)计算,并在每个时间间隔后通过使用每个习题的所有先前尝试进行更新。来自过去尝试每个习题的成功率的数据被转换为一个性能向量,用于在时间间隔 1:z 处对学生 i 进行聚类,如下所示(为简洁起见,我们在公式 5 中省略了用 i 索引所有术语):
R
(
x
j
)
1
:
z
=
∑
t
=
1
z
(
x
j
t
)
∣
N
j
t
∣
(5)
R(x_j)_{1:z}=\sum_{t=1}^{z}\frac{(x_{jt})}{|N_{jt}|}\tag{5}
R(xj)1:z=t=1∑z∣Njt∣(xjt)(5)
d 1 : z i = ( R ( x 1 ) 1 : z , R ( x 2 ) 1 : z , … , R ( x n ) 1 : z ) (6) d_{1:z}^i=(R(x_1)_{1:z},R(x_2)_{1:z},\dots ,R(x_n)_{1:z})\tag{6} d1:zi=(R(x1)1:z,R(x2)1:z,…,R(xn)1:z)(6)
- x j t x_{jt} xjt 是在时间 t 尝试做答习 x j x_j xj 的结果; 1 表示尝试成功,0 表示尝试不成功;
- ∣ N j t ∣ |N_{jt}| ∣Njt∣是时间间隔z内做题的总次数
- n是习题的总数量
- R ( x j ) 1 : z R(x_j)_{1:z} R(xj)1:z 表示学生 i 从时间1 到当前时间 z 正确回答习题 x j x_j xj的比率。这是针对所有习题 ( x 1 , x 2 , … , x n ) (x_1,x_2,\dots,x_n) (x1,x2,…,xn) 计算的;
- d 1 : z i d_{1:z}^i d1:zi 表示学生 i 从时间 1 到 z 在所有习题上的表现向量。
如果学生在 0:z 时间间隔内没做题,我们将 0.5 的比率分配给 R ( x j ) 1 : z R(x_j)_{1:z} R(xj)1:z。
因此,数据包含学生过去表现的编码向量,并在每个时间间隔后累积和更新。时间间隔z和学生i在训练过程中被忽略,只在以后的聚类过程中使用。然后,k-means 算法用于评估学生在每个时间间隔 z 的训练和测试中的时间长期学习能力,通过在 DKT-DSC 中测量训练过程后达到的质心欧几里得距离。
在学习了所有簇的质心后,每个学生 i 在每个时间间隔 z 被分配到最近的簇
C
c
C_c
Cc,公式如下:
a
b
i
l
i
t
y
p
r
o
f
i
l
e
(
a
b
z
)
=
a
r
g
m
i
n
C
∑
c
=
1
K
∑
d
1
:
z
−
1
i
∈
C
c
∣
∣
d
1
:
z
−
1
i
−
μ
c
∣
∣
2
(7)
ability \ profile(ab_z)=\underset{C}{arg\ min}\sum_{c=1}^{K}\sum_{{d_{1:z-1}^i} \in C_c}||{d_{1:z-1}^i} -\mu_c||^2 \tag{7}
ability profile(abz)=Carg minc=1∑Kd1:z−1i∈Cc∑∣∣d1:z−1i−μc∣∣2(7)
其中质心
μ
c
\mu_c
μc是集群
C
c
C_c
Cc 的点的平均值,性能向量
d
1
:
z
−
1
i
d_{1:z-1}^i
d1:z−1i 是学生 i 从时间 1 到 z − 1 的平均表现数据。
学生被分配到最近的集群,该集群的标签 a b z ab_z abz 代表时间间隔 z 的时间学生学习能力。在前 20 次尝试后开始评估,然后每 20 次尝试由学生进行一次。在第一个时间间隔内,所有学生都被分配了初始能力配置文件 1。
评估习题难度
问题难度是在先前研究中预测学生表现的一个显着特征。请注意,在本研究中,假设每个习题都与一个知识概念相关,但难度与很多问题相关,而不是与概念本身相关。问题
p
j
p_j
pj的难度以 1 到 10 的等级确定。问题难度 (
p
j
p_j
pj) 的计算公式为:
d
i
f
f
i
c
u
l
t
y
l
e
v
e
l
(
p
j
)
=
{
δ
(
p
j
)
i
f
∣
N
j
∣
≥
4
5
o
t
h
e
r
w
i
s
e
(8)
difficulty \ level(p_j)= \begin{cases} \delta(p_j) & if|N_j|\geq4 \\5 & otherwise \end{cases} \tag{8}
difficulty level(pj)={δ(pj)5if∣Nj∣≥4otherwise(8)
δ ( p j ) = ⌊ ∑ i ∣ N j ∣ O i ( p j ) ∣ N j ∣ ∗ 10 ⌋ (9) \delta(p_j)=\big\lfloor \frac{\sum_{i}^{|N_j|}O_i(p_j)}{|N_j|}*10 \big\rfloor\tag{9} δ(pj)=⌊∣Nj∣∑i∣Nj∣Oi(pj)∗10⌋(9)
- p j p_j pj表示第j个习题
- N j N_j Nj表示尝试习题的 p j p_j pj的总数
- O i ( p j ) O_i(p_j) Oi(pj) 学生 i 第一次尝试问题 p j p_j pj 的结果,如果成功则为 1,否则为 0
δ ( p j ) \delta(p_j) δ(pj) 是将问题 p j p_j pj 的平均成功率映射到 10 个级别的函数。未见过的问题、没有任何记录的问题以及数据集中少于 4 个学生 ( ∣ N j < 4 ∣ ) (|N_j<4|) (∣Nj<4∣) 做过的的问题的难度设置为 5。
3.2 可解释的学生表现预测
使用 Tree Augmented Naive Bayes 方法进行预测,TAN 结构是朴素贝叶斯网络的简单扩展。与朴素贝叶斯一样,根节点是类节点(class node 问题的正确性),与证据节点(evidence node 习题 ID、概念掌握、能力概况和问题难度)有因果关系。此外,TAN 结构放宽了证据节点之间独立性的假设。它允许大多数证据节点可以有另一个父节点,可以是相关的证据节点。该模型继承了有向无环图结构,并生成了一个捕获证据节点之间关系的树。这种结构的学习比一般的贝叶斯网络计算成本低,并且比在 DKT 中构建用于知识追踪的神经网络更具成本效益。图 3 显示了一个示例 TAN 结构。类节点是正在考虑的学生的正确性假设。其他节点代表特定学生在时间 t 的表现假设的支持证据。证据节点之间的依赖关系被捕获为 TAN 结构中的附加因果关系。即使箭头的方向代表两个节点之间的因果关系,信息也可以根据推理过程向任何方向流动。
TAN结构通过最小加权生成树 (MWST) 方法进行学习得到,该方法构建最小生成树以捕获证据节点之间的依赖关系,然后将类节点连接到所有证据节点)。使用数据挖掘工具Weka运用MWST算法进行学习。
IKT 通过使用三个有意义的提取特征
f
t
f_t
ft进行推理:概念掌握、能力概况和问题难度作为当前时间戳 t 的推理依据:
P
(
c
o
r
r
e
c
t
n
e
s
s
t
=
y
∣
f
t
)
=
P
(
y
)
P
(
f
t
∣
y
)
∑
y
ˊ
P
(
y
ˊ
)
P
(
f
t
∣
y
ˊ
)
(10)
P(correctness_t=y|f_t)=\frac{P(y)P(f_t|y)}{\sum \acute{y}P(\acute{y})P(f_t|\acute{y})}\tag{10}
P(correctnesst=y∣ft)=∑yˊP(yˊ)P(ft∣yˊ)P(y)P(ft∣y)(10)
其中 P ( f t ∣ y ) = P ( s t ∣ y ) P ( a b i l i t y p r o f i l e ( a b z ) ∣ y , s t ) P ( p r o b l e m d i f f i c u l t y ( P j ) ∣ y , s t ) P ( s k i l l m a s t e r y ( s t ) ∣ y , s t ) \pmb{其中} \begin{align} P(f_t|y)=& P(s_t|y)P(\pmb{ability \ profile}(ab_z)|y,s_t)\\ &P(\pmb{problem \ difficulty}(P_j)|y,s_t)\\ &P(\pmb{skill\ mastery}(s_t)|y,s_t) \end{align} 其中其中P(ft∣y)=P(st∣y)P(ability profileability profile(abz)∣y,st)P(problem difficultyproblem difficulty(Pj)∣y,st)P(skill masteryskill mastery(st)∣y,st)
这些是在时间 t 评估学生 i 在习题 s 上的概念掌握 ( s t s_t st)、学生 i 在当前时间间隔 z 的时间能力概况 ( a b z ab_z abz) 和在时间 t上 P j P_j Pj 的问题难度
类节点(正确性)表示学生用相关技能正确回答问题的预测概率。因此,可以从正确性中检索与习题 s t s_t st 相关的问题的预测,如图 3 所示。可以通过每个节点的条件概率表及其因果关系来实现解释。我们可以通过每个时间戳的证据来检测学生是否存在练习技能不足或习题对个别学生来说太难的问题,从而追溯学生解决问题失败的原因。
4 实验
我们将我们模型的下一个问题学生表现预测与上述著名的 KT 模型进行比较:BIRT ,BKT , PFA, DKT,DKT-DSC 和 DKVMN 。但我们不与其他变体进行比较,因为它们或多或少相似,并且没有显示出显着的性能差异。表1总结了比较学生模型的特点,其中每个模型都有其显着的特点。
数据集:
结果:
TAN 结构导致学生模型具有更好的因果关系解释和更高的预测性能。表 3 和表 4 中的结果表明,IKT 在所有测试数据集中显着优于众所周知的 KT 模型。 IKT-3 的性能优于我们实验中测试的任何其他型号
消融实验:
我们通过消融研究将我们的 IKT 模型与以下不同特征进行比较:
- IKT-1: skill ID, skill mastery.
- IKT-2: the features of IKT-1 + ability profile.
- IKT-3: the features of IKT-2 + problem difficulty.
写在最后:
这篇文章通过使用特征工程中的数据挖掘技术从学生的行为数据中提取三个有意义的潜在特征。基于这些特征的具有因果关系的 TAN 结构使得 KT 模型对学生的表现预测具有更好的性能,不需要大量的参数,也不需要复杂的结构。与深度学习模型相比,它节省了大量的计算资源,并为更好地理解有意义的特征提供了因果解释。