multi-teacher学习

最新推荐文章于 2024-03-20 14:03:32 发布

zixufang

最新推荐文章于 2024-03-20 14:03:32 发布

阅读量1.7k

点赞数 4

分类专栏：对话系统&强化学习（2）

本文链接：https://blog.csdn.net/yagreenhand/article/details/104394008

版权

本文探讨了多教师学习的原理和应用，包括如何处理不同教师的输出差异，使用多数投票策略集成教师意见，以及在语音识别、行人再识别和行为预测任务中的知识蒸馏。还介绍了损失函数的计算和重要特征的学习。文章提到了多种模型结构，如Granger-causal Attentive Mixtures of Experts和双向LSTM教师网络，以及逐步教师-学生学习方法。

摘要由CSDN通过智能技术生成

多老师学习：
1.Learning from Multiple Teacher Networks
1)不同example 输入到网络会有不同的输出，（x1,x2,x3）得到（p1,p2,p3）,(q1,q2,q3)，怎么保证||q1-q2||和||q1-q3||的相对距离（q2和q3谁取胜）和||p1-p2||和||p1-p3||的相对距离相近（p2和p3谁取胜）。
2)如果是多个老师的话，因为不同老师可能结果不同还是有噪音，所以取老师们中数量较多的结果。作为multi-teachers的结果。
3)具体还有选择哪些层作为immediate layer。
问题：训练实例输出的距离差感觉不适合NLP。

2.MOG,
1）是chair通过隐向量来动态决定权重的。
2）共用一个encoder的（teach的模型，针对不同的数据源，应该encoder参数也不同？应该retrieval一个不用考虑这个问题）
3）experts是分领域训练的，chair是整个数据集训练的（感觉可以删掉，毕竟是要一个简单的stud模型）。
问题：expert需要预训练。没看懂chair怎么整合的。
4）
experts怎么融合。
$\mathbf{p}_{j}=\sum_{l=1}^{k+1} \beta_{j}^{l} \cdot \mathbf{p}_{j}^{l}$
$\begin{aligned} \beta_{j}^{l} &=\frac{\exp \left(u_{l}^{T} u_{e, l}\right)}{\sum_{b=1}^{k} \exp \left(u_{b}^{T} u_{e, l}\right)} \\ u_{l} &=\operatorname{MLP}(\mathbf{h}) \\ \mathbf{h} &=\mathbf{s}_{j}^{1} \oplus \mathbf{p}_{j}^{1} \oplus \cdots \oplus \mathbf{s}_{j}^{k} \oplus \mathbf{p}_{j}^{k} \oplus \mathbf{s}_{j}^{k+1} \oplus \mathbf{p}_{j}^{k+1} \end{aligned}$
$u_{e,l}$ is an expert-specific, learnable vector that reflects which dimension of the projected hidden representation is highlighted for the expert. 在第j步时 $u_{l}^{T}$ 是所有状态加起来。
loss怎么计算
1)experts的loss
$\mathcal{L}_{\text {experts}}=\sum_{l=1}^{k+1} \sum_{\left(X^{l}, Y^{l}\right) \in S_{l}} \sum_{j=1}^{n} \mu_{k} y_{j}^{l} \log \mathbf{p}_{j}^{l}$