知识蒸馏
文章平均质量分 63
酷暑冷冰
这个作者很懒,什么都没留下…
展开
-
针对(分为子结构的)结构性预测的知识蒸馏(可用于ner)(ner知识蒸馏)
一般的知识蒸馏 词级别知识蒸馏 结构知识蒸馏 实际上不同位置的输出往往并不是相互独立的,比如用 BIOES 标注 NER 标签的例子:“希尔顿离开北京机场了”,其标签为”B-PER, I-PER, E-PER, O, O, B-LOC, I-LOC, I-LOC, E-LOC, O“。I 标签前只能是 B 标签,不能是其他标签,类似的还有 E 标签前必须是 B 或者 I 标签等规则。 此时损失函数为: 其中,Y(x)\mathbb{Y}(\boldsymbol{x})Y(x)是预测标签以句子为单位的所原创 2021-07-03 10:45:09 · 304 阅读 · 1 评论 -
温故而知新的知识蒸馏 Distilling Knowledge
文章目录温故而知新的知识蒸馏 温故而知新的知识蒸馏 博客链接:Knowledge Review:超越知识蒸馏,Student上分新玩法! 上图中的(d)是提出的新方法,他融合了Teacher的不同层。 原因:之前的蒸馏方法(a)(b)©三种形式都可以理解为相同层进行蒸馏,引导student学习teacher相同层的feature。但,teacher深层的语义信息更加抽象,student训练早期会更加关注teacher浅层简单知识的学习,随着训练的进行,会越来越关注teacher深层抽象知识的学习。 a、原创 2021-05-26 17:49:11 · 227 阅读 · 0 评论 -
标签平滑与知识蒸馏
文章目录标签平滑的作用标签平滑与知识蒸馏什么情况会真正导致标签平滑无效或者效果变弱呢? 论文与博客:推翻Hinton NeurIPS论文结论!审稿人评价:该文章在标签平滑和知识蒸馏的关系上取得了重大突破 标签平滑的作用 如果我们重新来审视上图中两个语义相似的类别(左侧的两个靠近的类别),当使用标签平滑时,同一类别样本聚集会更加紧密,因为标签平滑会促使每个样本与该类中其他样本的类中心等距,而紧密的聚类会显著促进语义相似的不同类的表示变得更加可分离,即两个类中心距离 Dc 增大了,这进一步变现为语义相近但是不原创 2021-07-08 17:02:40 · 476 阅读 · 0 评论