《Multi-Task Deep Neural Networks for Natural Language Understanding》论文笔记

最新推荐文章于 2023-01-07 10:50:31 发布

凯子要面包

最新推荐文章于 2023-01-07 10:50:31 发布

阅读量179

点赞数

分类专栏： NLP 文章标签：自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_44815943/article/details/123895989

版权

NLP 专栏收录该内容

21 篇文章 0 订阅

订阅专栏

摘要

作者提出MT_DNN迁移学习方法，该方法试图结合 Multi-Task Learning 与 Pretraining LM 的优点。MT_DNN的示意图如下：
MT_DNN示意图
MTL是指“同一模型同时在多个相关数据集上，进行多任务的学习”，这样的好处不仅可使模型利用更多的数据集，也具有正则效果。而加入预训练模型的优势，则是将预训练模型作为Encoder，这个Encoder处于网络结构的底层，被多个任务所共享，而每个特定的任务具有特定的学习层则处于上层。

模型结构

Encoder部分就是Bert，可参考Bert原文，这里记录特定任务的不同层。

序列分类任务：添加logistic regression 与 softmax：
$P(c|x) = softmax(W^Tx )$
$x$ 是Encoder中最后一层[CLS]向量。

句对相似性任务：添加logistic regression：
$y = W^T x$
$x$ 是Encoder中最后一层[CLS]向量。其它任务的网络层设计参考原文，或者自行设计。

训练过程

训练过程包含两个阶段，第一个阶段仅对Encoder部分，与BERT预训练过程一致：MLM & NSP。第二个阶段更新Encoder，以及特定任务层的所有参数，具体做法是：“从多个任务数据集中，随机抽取一个batch，计算抽取的batch对应任务的损失，并更新该任务对应的网络层参数，经过大量随机抽取，所有特殊网络层及Encoder的参数都将被更新”。怎样应用MT_DNN到下游任务论文没有提及，个人认为，剪去非下游目标任务所需层，然后与Bert用法就保持一致了。

实验结果

在这里插入图片描述

说明多任务学习方法比“单任务学习方法”更好。

凯子要面包

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
《Multi-Task Deep Neural Networks for Natural Language Understanding》论文笔记

摘要作者提出MT_DNN迁移学习方法，该方法试图结合 Multi-Task Learning 与 Pretraining LM 的优点。MT_DNN的示意图如下：MTL是指“同一模型同时在多个相关数据集上，进行多任务的学习”，这样的好处不仅可使模型利用更多的数据集，也具有正则效果。而加入预训练模型的优势，则是将预训练模型作为Encoder，这个Encoder处于网络结构的底层，被多个任务所共享，而每个特定的任务具有特定的学习层则处于上层。 模型结构Encoder部分就是Bert，可参
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。