文本分类label embedding之MTLE

最新推荐文章于 2022-09-22 19:46:54 发布

wshzd

最新推荐文章于 2022-09-22 19:46:54 发布

阅读量624

点赞数

分类专栏： NLP 笔记文章标签：自然语言处理深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wshzd/article/details/116047777

版权

笔记同时被 2 个专栏收录

178 篇文章 101 订阅

订阅专栏

62 篇文章 4 订阅

订阅专栏

一、前沿

传统文本分类的多任务学习是显示的抽取相关任务之间的共同特征，从而可以提升每个分类任务的性能。这些学习方式通常会有如下缺点：

1）每个任务的label都是相互独立的使用类似one-hot形似表示的，比如使用[1,0]和[0,1]分别表示正负样本的label；

2）多任务的神经网络架构通常是固定的，一些网络是pair-wise的交互，加入新任务的时候往往需要重新训练整个网络；

3）人类可以通过学习少数几个相关任务就可以学习一个新的任务，这也叫做迁移学习，传统的多任务学习网络架构是固定的，没有专门的layer是为新任务而设计的，所以迁移能力不足。

且看本文提出的Multi-Task Label Embedding (MTLE)，是如何解决这些问题的，了解文本分类或者监督学习的朋友比较清楚交叉熵损失函数了，我整理列出单任务和多任务的损失函数形式对比：

单任务：

多任务：

由此看出，差别在于多任务的损失函数仅仅是单个任务在多个任务上求和即可。

二、MTLE模型通用架构

Figure1是MTLE的通用框架，主要是有Input Encoder, the Label Encoder and the Matcher三部分组成。其中Input Encoder, the Label Encoder分别是对输入数据和任务标签label的embedding操作，而Matcher是对这两部分的匹配，举个不恰当的例子，比如输入两句话，那么这两句话的相识度分数就是Matcher负责的事情，下面看一个具体的实现结构：

三、MTLE模型的一个具体架构

如上图Figure2所示，WI and WL表示word embedding矩阵，可以使用开放域训练好的词向量，比如使用word2vec训练好，然后在模型训练中进行fine-tune词向量，LI and LL是特征抽取器，目的是把输入文本表示为固定大小的向量，本文使用BiLSTM，如下公式所示：

输入文本内容和分类标签label都经过BiLSTM进行编码，可以简化为如下形式：

把这两个结果进行concatenate拼接起来，然后送给Matcher（也就是Figure2中的M，通过一个全连接和sigmoid激活函数连接到一个神经元），公式如下所示：

模型的损失函数形式如下公式所示：

最终的形式是对多个任务进行加权求和，公式如下图所示：

四、MTLE模型的应用与迁移学习

如Figure3所示，根据新加入任务的不同，MTLE的迁移学习分为三种方式：

1）Hot Update：加入新的分类任务时，使用新任务的数据进行fine-tune原来的模型；

2）Cold Update：加入新的分类任务时，所有的任务都需要重新训练；

3）Zero Update：加入的新分类任务，数据只有标签集合，没有对数据进行标注，直接基于之前的模型进行预测计算即可。

五、MTLE模型的实验效果

5.1、数据集

Multi-Cardinality：SST-1,SST-2, IMDB

Multi-Domain：BDEK

Multi-Objective：IMDB,RN, QC

5.2、实验任务

A + B → C，A、B表示已经在多任务中训练好的任务，C表示新加入的任务

论文对下面三种case做了实验对比

• Case 1 SST-1 + SST-2 → IMDB.

• Case 2 B+D+E→K.
• Case 3 RN+QC→IMDB.

实验效果如下Tabel 4所示：

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
文本分类label embedding之MTLE

一、前沿传统文本分类的多任务学习是显示的抽取相关任务之间的共同特征，从而可以提升每个分类任务的性能。这些学习方式通常会有如下缺点：1）每个任务的label都是相互独立的使用类似one-hot形似表示的，比如使用[1,0]和[0,1]分别表示正负样本的label；2）多任务的神经网络架构通常是固定的，一些网络是pair-wise的交互，加入新任务的时候往往需要重新训练整个网络；3）人类可以通过学习少数几个相关任务就可以学习一个新的任务，这也叫做迁移学习，传统的多任务学习网络架...
复制链接

扫一扫

专栏目录

wshzd CSDN认证博客专家 CSDN认证企业博客

码龄7年

246: 原创

1万+: 周排名

5597: 总排名

61万+: 访问

: 等级

6428: 积分

1691: 粉丝

1718: 获赞

91: 评论

2550: 收藏

私信

关注

热门文章

分类专栏

RAG 41篇
LLM 4篇
LangChain 3篇
Agent 8篇
ChatGPT 81篇
幻觉 1篇
LLM推理部署 1篇
扩散模型 2篇
强化学习 6篇
机器学习 13篇
笔记 178篇
Python 45篇
R
深度学习 13篇
spark 6篇
NLP 62篇
tensorflow 7篇
pytorch 2篇

最新评论

LLM之Agent（十）| 本地安装Microsoft AutoGen Studio 2.0教程
Linux猿: 你好，pip 源用的是哪个呀？我这边安装 AutoGen Studio 版本是 0.1.4
LLM评估（一）| 大模型评估的四种方法
Jonathan Star: 请问研究基准的方法有代码吗
扩散模型实战（五）：采样过程
少年X: 1. 扩散模型需要加入的是高斯噪声而不是随机噪声 2. 采样中每步迭代都应当去除当前步噪声并且加上下一步需要预测的噪声，而不是固定不变 3. 需要加入时间嵌入模块 4. 扩散模型是去噪模型，是预测噪声而不是预测图像。你这个是直接预测图像，根本就不是扩散模型，不要误导人了。
LLM（六）| Gemini：谷歌Gemini Pro 开放API ，Gemini Pro 可免费使用
小杜要上岸: 你好请问，我是别人注册的api，她的谷歌账号可以使用colab，我google没有报错，反而是colab报错说找不到引用是什么问题呢
LLM之RAG实战（四十）| 使用LangChain SQL Agent和MySQL搭建多层RAG ChatBot
ha_lydms: 非常不错的技术领域文章分享，解决了我在实践中的大问题！博主很有耐心，更有对知识的热忱和热爱，写了这么实用有效的分享，值得收藏点赞。

最新文章

2024

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

wshzd 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。