Semi-Supervised Sequence Modeling with Cross-View Training

最新推荐文章于 2023-08-25 17:18:57 发布

zsf2951186806

最新推荐文章于 2023-08-25 17:18:57 发布

阅读量476

点赞数 3

分类专栏：论文笔记

本文链接：https://blog.csdn.net/zsf2951186806/article/details/89914235

版权

论文笔记专栏收录该内容

9 篇文章 0 订阅

订阅专栏

题目与摘要

本文针对什么任务？任务简要介绍下。

针对序列任务，包括分类，序列标注。

本文发现了什么问题？该文大体是怎么解决的？解决得如何？

目前监督学习从小规模的标注数据中学习，但是目前无监督学习表示出了很大的优势，所以本文提出了一种新的方法利用标注数据以及未标注数据，CVT。full model 学习 labeled data。使用辅助模型只学习数据的一部分来匹配full model的预测。很有效，尤其对于多任务学习。

解释下题目。题目起得如何？能概括内容并吸引人吗？

简单明了，概括了目标。。

介绍

这个任务以往是如何解决的？作者沿着哪条路径继续研究的？为什么？

监督学习，对语料要求较高

无监督学习，预训练不能使用标注数据，

半监督学习

作者使用半监督学习。CVT属于self-training。因为半监督学习既可以利用标注数据以及未标注数据。

目前工作存在什么问题？为什么？你觉得可能还存在什么其他问题？为什么？

self-training以往将测试集中预测的数据置信度高的数据添加进训练集。

对于标注数据正常训练，对于未标注数据，模型既作为teacher还作为student。模型在未标注的数据测试结果作为label,并对数据加噪音，作为student。图像加噪音是可行的，文本输入不是很可行。

但是之后数据是基于此模型训练的数据。如果测试集本身的结果就不高，利用测试集数据会不会扰乱。

该文准备如何解决这个问题？为什么可以这样解决？你觉得该文解决这个问题的方法如何？为什么？你觉得可以如何/或更好的解决这个问题？为什么？

使用self-training 以及multi-view 。

使用full model训练标注数据，full model对未标注的数据进行预测，辅助模型输入不同的未标注数据的部分来预测 full model的预测结果。

1、避免了测试集的数据进入到训练集，防止出现，过拟合？？？

2、通过辅助模型对不完全的未标注数据预测，来挖掘更深层次的信息。

列出该文贡献（该文自己觉得的）

CVT可以更好的学习表示

CVT改进了以前任务的结果，轻松有效地与多任务学习相结合：只需添加额外的预测模块。共享Bi-LSTM编码器之上的不同任务。训练统一模型以共同执行除机器翻译之外的所有任务可以改善结果（优于多任务ELMo模型）同时减少总训练时间。

模型

整体介绍（主要是图）

半监督方法

对于训练集的数据输入到模型中，预测结果与标签进行比较，对于测试集，根据任务对一条测试集数据进行拆分（对任务有帮助的形式），作为输入去预测测试集完整数据预测的结果。Loss计算是训练机的loss+测试集的loss

监督部分的loss

CVT的Loss

使用的KL散度作为计算

与multi-task结合

在bilstm编码器上添加其他的预测模块，监督学习期间随机选取一个任务，针对该任务标记数据小批量更新Lsup 监督学习损失。在学习未标注数据时，所有任务联合优化Lcvt.模型交替进行有关标记和未标记的训练

不比单个任务慢，如果联合训练6个任务，需要3倍一项模型的时间，节省了2倍时间。

模型创新点

对于测试集数据这样拆分，可以加强模型的表示学习，因为对测试集的拆分出不同的数据，更好的挖掘深层信息。相比之前使用两个模型，本模型只是增加几个预测的模块，对比之前添加整个模型是很节省的。

（仅对要进一步跟进的paper）详细介绍模型，从输入到输出，输入矩阵维度，公式等

实验

数据集及评价标准介绍

Combinatory Categorial Grammar (CCG) Supertagging 组合范畴文法:CCGBank

Text Chunking文本语块识别:CoNLL-2000 data

NER:CoNLL-2003 data

Fine-Grained NER (FGN)细粒度分词:OntoNotes (Hovy et al., 2006) dataset.

词性标注：Wall Street Journal portion of the Penn Treebank

依存分析：Penn Treebank onverted to Stanford Dependencies version 3.3.0.

机器翻译：use the English-Vietnamese translation dataset from IWSLT 2015 (Cettolo et al., 2015). We report (tokenized) BLEU scores on the tst2013 test set.

use the 1 Billion Word Language Model Benchmark (Chelba et al., 2014) as a pool of unlabeled sentences for semi-supervised learning.

结果分析

result

VAT对抗学习，向student模型加噪音

因为测试集是在所有任务上进行测试，所以可以减轻多任务学习的遗忘问题

多任务学习类似CVT+self-training

多任务学习确实有提升，

多任务的CVT会高于multi-task ELMO

小的multi-task与大的multitask做对比，模型大还是有优势的

CVT25%数据就可以超于监督100%数据，说明小数据量，半监督很有优势

你觉得这篇paper创新与贡献是（不一定如作者所说）？为什么？

通过CVT不同视角看数据会对模型有提升，将数据分解的更加详细，以便模型学习到更好的结果。此文也是对数据的进一步扩充

有没有进一步深入的价值？为什么？

有，数据集少的时候可以采用

列出该文弱点（或者是你觉得应该是什么问题，他解决的不好，你会如何解决？）

我觉得此类需要依靠这类问题的难易程度，如果本身问题很难（50%），在测试常常有预测错误的时候，只用一半测试集数据与完整数据是否具有可比性，

如果一半的数据拆分比较合理，导致效果优于整体呢，

既然有效，为什么不将训练集也做同样的拆分处理和正确标签比较？

感觉对不同任务个性化拆分数据，有点像去猜遮掩部分并进行预测。

该文对你的启发是？

可以从数据的不同角度出发看数据，让模型学会更细的看数据。

列出其中有价值的需要进一步阅读的参考文献

zsf2951186806

关注

3
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Semi-Supervised Sequence Modeling with Cross-View Training

题目与摘要本文针对什么任务？任务简要介绍下。针对序列任务，包括分类，序列标注。本文发现了什么问题？该文大体是怎么解决的？解决得如何？目前监督学习从小规模的标注数据中学习，但是目前无监督学习表示出了很大的优势，所以本文提出了一种新的方法利用标注数据以及未标注数据，CVT。full model 学习 labeled data。使用辅助模型只学习数据的一部分来匹配full mode...
复制链接

扫一扫