《Improving BERT-Based Text Classification With Auxiliary Sentence and Domain Knowledge》论文笔记

最新推荐文章于 2022-05-16 23:59:29 发布

凯子要面包

最新推荐文章于 2022-05-16 23:59:29 发布

阅读量985

点赞数

分类专栏： NLP 文章标签： BERT4TC 文本分类辅助序列学习率模型优化

本文链接：https://blog.csdn.net/weixin_44815943/article/details/123921313

版权

NLP 专栏收录该内容

21 篇文章 0 订阅

订阅专栏

模型

模型部分与Bert论文完全一致，只是为分类任务的输入样本构建了“辅助序列”——这种方法只适用于“单序列分类”，对于“语句相似性”等句对分类任务不适用。

BERT4TC示意图
上图输入部分的 $a_i$ 表示的是人工构建的辅助序列的token。

作者提出三种构建“辅助序列”的策略，1）辅助序列是一个不包含标签信息的问句，用BERT4TC-AQ标识；2）辅助序列是只包含一个标签名称的文本描述，用BERT4TC-AA标识；3）辅助序列是一个仅包含一个标签名称与若干其它词的文本描述，用BERT4TC-AWA标识。

作者后续实验证明，BERT4TC-AQ 与 BERT4TC-AWA的效果比 BERT4TC-AA 差，这里重点记录BERT4TC-AA。对于 BERT4TC-AA，在 $c$ 分类条件下，每一训练样本，需要转换成 $c$ 个0-1二分类，只有一个样本真实标签为1，其余的为0。在推断阶段，取 $c$ 个预测为标签1的概率值，概率最大的那个辅助序列对应的类就是预测的类别。

训练样本转换示例

实验结果

在这里插入图片描述

对于短文本，学习率取2e-5效果；长文本，学习率取1e-5效果最佳。总的来说较低的学习率比更激进的学习率效果会好些，同时，通过长短数据集上的实验结果，是否可以得到“对于难度越大的任务，取相对更小的学习率具有更好的效果”的结论？

在这里插入图片描述

这部分的实验是本论文的核心论证：1）BERT4TC-AQ不仅没能提升效果，反而降低模型效果。原因是引入了无效的信息，反而产生了噪声的负面效果。2）对于二分类任务，无论何种形式的辅助序列，效果均不如原始单序列输入。3）对于多分类任务，BERT4TC-AA 与 BERT4TC-AWA 优于 BERT4TC-S，可能原因除了训练数据量的增加，还可能是“降低易混淆类别的歧义”。 4）置于 BERT4TC-AA 优于 BERT4TC-AWA 表明，构建辅助序列时仅包含“标签名称”已足够，引入额外词汇可能反而加入噪声。