SAKT方法部分介绍

最新推荐文章于 2024-07-25 23:06:58 发布

多尝试多记录多积累

最新推荐文章于 2024-07-25 23:06:58 发布

阅读量1k

点赞数 2

分类专栏：知识追踪文章标签：深度学习

本文为博主原创文章，未经博主允许不得转载。

本文链接：https://blog.csdn.net/wy_______/article/details/124980389

版权

知识追踪专栏收录该内容

7 篇文章 2 订阅

订阅专栏

网络架构和嵌入解释：
在这里插入图片描述
SAKT网络: 在每个时间戳处，仅对前面的每个元素估计注意权重。键、值和查询是从如下所示的嵌入层中提取的。当第j个元素为查询元素且第i个元素为关键元素时，注意权重为 $a_{ij}$ 。

在这里插入图片描述

嵌入层: 嵌入学生正在尝试的当前练习和他过去的交互。在每次标记 $t + 1$ 时，使用练习嵌入将当前问题 $e_{t+1}$ 嵌入到查询空间中，使用交互嵌入将过去交互的元素 $x_t$ 嵌入到键和值空间中。
方法详细介绍：
模型目的：根据学生1到 t 时刻的习题作答情况，（即交互序列 $X = x_1, x_2, ..., x_t$ ,）预测在 $t + 1$ 时刻，习题 $e_{t+1}$ 的回答情况（即预测出真实情况，正确的概率）。

交互元组： $x_t = ( e_t, r_t)$ ： $t$ 时刻习题 $e_t$ 的作答情况 $r_t$ 构成的。 $x_t$ 编号化时，用两者来表示，： $y_t = e_t + r_t × E$ ， $E$ 是题目数量，可以看出交互编号，回答错误时和题目编号同 $y_t = e_t$ ，回答正确时，编号加上题目总数 $y_t = e_t + E$ 。

嵌入层描述：
交互序列需要划分处理，保证所以的交互序列的长度一致，多则截断，短则填充。
因此交互序列由 $y = (y_1, y_2, ...,y_t)$ 变为 $s = (s_1,s_2,...,s_n)$ 。
训练一个交互嵌入矩阵： $M ∈ R^{2E×d}$ ,其中 d 是潜在维度，用于获取交互嵌入。 $s_i$ 的嵌入表示为 $M_{s_i}$
训练一个练习嵌入矩阵： $E ∈ R^{E×d}$ , 用户获取练习嵌入。 $e_i$ 的嵌入表示为 $E_{e_i}$

位置编码：
为了对序列顺序进行编码，引入参数 $P ∈ R^{n×d}$ ，加到交互嵌入中，形成新的编码。 $P_i$ 加入到第 $i$ 个交互嵌入向量中，形成含有位置编码的交互嵌入向量。
在这里插入图片描述

自注意力层
在这里插入图片描述
Q: 习题嵌入
K：作答交互嵌入
V ：作答交互嵌入

利用缩放点积的注意力机制
当前练习和之前的每一次作答交互都有关系，计算出注意力权重。

多头
捕获不同子空间的信息。

因果关系
因为序列性的缘故，不能够知道被预测题目的信息，所以使用因果关系层掩盖从未来交互中学习到的权重。

前馈层
为了在模型中加入非线性并考虑不同潜在维度之间的相互作用，我们使用了前馈网络。
在这里插入图片描述

残差连接
利用低层信息

预测层
得到预测的概率
在这里插入图片描述

网络训练
交叉熵

多尝试多记录多积累

关注

2
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
SAKT方法部分介绍

网络架构和嵌入解释：SAKT网络: 在每个时间戳处，仅对前面的每个元素估计注意权重。键、值和查询是从如下所示的嵌入层中提取的。当第j个元素为查询元素且第i个元素为关键元素时，注意权重为aija_{ij}aij。嵌入层: 嵌入学生正在尝试的当前练习和他过去的交互。在每次标记 t+1t+1t+1 时，使用练习嵌入将当前问题 et+1e_{t+1}et+1 嵌入到查询空间中，使用交互嵌入将过去交互的元素 xtx_txt 嵌入到键和值空间中。方法详细介绍：模型目的：根据学生1到 t 时刻的习题
复制链接

扫一扫

专栏目录