SAINT：一个基于transformer的知识跟踪模型

最新推荐文章于 2025-03-20 10:15:58 发布

AI强仔

最新推荐文章于 2025-03-20 10:15:58 发布

阅读量5.2k

点赞数 4

分类专栏：人工智能知识跟踪 transformer

人工智能同时被 3 个专栏收录

150 篇文章

订阅专栏

transformer

33 篇文章

订阅专栏

知识跟踪

3 篇文章

订阅专栏

SAINT是一种基于Transformer的知识跟踪模型，旨在解决传统模型在捕捉练习题与答案间复杂关系的局限。它通过独立的Encoder和Decoder处理exercise与response序列，利用深度自注意力机制增强表示能力，提高了预测准确性。实验结果显示，SAINT相比于现有模型在AUC上有1.8%的提升，尤其适用于学生学习行为理解和教育资源分配。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1 简介

SAINT: Separated Self-AttentIve Neural Knowledge Tracing. 一个基于transformer的知识跟踪模型。

本文根据《Towards an Appropriate Query, Key, and Value Computation for Knowledge Tracing》翻译总结。

知识跟踪：基于每个学生过去的学习活动，预测学生对未来一个主题的理解。比如EdNet数据集，给了每个学生过去所有练习题的情况（练习题的类别、学生是否回答正确、花费的时间等），预测学生是否能正确回答下一个练习题。追踪每个学生理解的状态，可以依据学生的能力和需要进行有效的资源分配。

深度学习之前，传统的知识跟踪方法包括贝叶斯知识跟踪（Bayesian Knowledge Tracing (BKT)）、协同过滤（Collaborative Filtering (CF)）。BKT将学生的知识状态表示成一个二值元组，其中每一个值表示学生是否理解一个单独的概念。使用隐马尔科夫模型，将这些值更新为学生实际的答案（response）。

目前应用在知识跟踪上的注意力机制有如下两个限制，如下图：（1）以前模型的注意力层太浅，不能捕捉不同练习题（exercise）和答案（response）之间复杂的关系。（2）合适的构建queries, keys and values还没有被充分发掘。比如目前都是练习题为queries，交互为keys和values。

在这里插入图片描述

为此，SAINT如下图，有如下贡献：
1）SAINT中，exercise embedding sequence 和the response embedding sequence分别独立的进入encoder 和decoder。
2）SAINT使用深度自注意力有效的捕捉了练习题和答案之间复杂的关系。
3）SAINT比目前优秀的模型完成了AUC的1.8%的提升。

2 模型建设

2.1 问题定义

在这里插入图片描述

那么问题表示成如下形式，回答第i个exercise是否准确的概率：
在这里插入图片描述

2.2 输入表示

SAINT采用E_1，E_2……E_k和R_1, R_2…… R_(k-1)作为输入，预测第k个response。

输入特征如下：
在这里插入图片描述

2.3 深度自注意力Encoder-Decoder

在这里插入图片描述

Encoder的输出是O。公式如下：
在这里插入图片描述

2.3.1 多头注意力网络：

Q_in、K_in、V_in、分别代表多头注意力网络的queries, keys 、values。

在这里插入图片描述

2.3.2 Feed-Forward Networks

位置敏感的feed-forward networks，添加了非线性到模型。

在这里插入图片描述

2.3.3 Encode

在这里插入图片描述

2.3.4 Decode

在这里插入图片描述

2.4 其他变体

在这里插入图片描述

我们也探讨了其他3个变体，如上图所示。
1）Lower Triangular Masked Transformer with Interaction sequence (LTMTI)
2）Upper Triangular Masked Transformer with Interaction sequence (UTMTI)
3）Stacked variant of SAKT [14] (SSAKT)

3 实验结果

采用的数据集是EdNet，该数据集有santa（一个英语教育手机应用）收集。
我们将数据集分为：the train set (439,143 users, 51,117,443 responses), the validation set (62,734 users, 7,460,486 responses) and the test set (125,470 users, 14,329,076 responses)。

实验结果如下：
Multilayer Perceptron (MLP) [7], Neural Collaborative Filtering (NCF) [7], Neural Pedagogical Agent (NPA) [12] and Self-Attentive Knowledge Tracing (SAKT)。

在这里插入图片描述