题目与摘要
本文针对什么任务?任务简要介绍下。
针对序列任务,包括分类,序列标注。
本文发现了什么问题?该文大体是怎么解决的?解决得如何?
目前监督学习从小规模的标注数据中学习,但是目前无监督学习表示出了很大的优势,所以本文提出了一种新的方法利用标注数据以及未标注数据,CVT。full model 学习 labeled data。使用辅助模型只学习数据的一部分来匹配full model的预测。很有效,尤其对于多任务学习。
解释下题目。题目起得如何?能概括内容并吸引人吗?
简单明了,概括了目标。。
介绍
这个任务以往是如何解决的?作者沿着哪条路径继续研究的?为什么?
监督学习,对语料要求较高
无监督学习,预训练不能使用标注数据,
半监督学习
作者使用半监督学习。CVT属于self-training。因为半监督学习既可以利用标注数据以及未标注数据。
目前工作存在什么问题?为什么?你觉得可能还存在什么其他问题?为什么?
self-training以往将测试集中预测的数据置信度高的数据添加进训练集。
对于标注数据正常训练,对于未标注数据,模型既作为teacher还作为student。模型在未标注的数据测试结果作为label,并对数据加噪音,作为student。图像加噪音是可行的,文本输入不是很可行。
但是之后数据是基于此模型训练的数据。如果测试集本身的结果就不高,利用测试集数据会不会扰乱。
该文准备如何解决这个问题?为什么可以这样解决?你觉得该文解决这个问题的方法如何?为什么?你觉得可以如何/或更好的解决这个问题?为什么?
使用self-training 以及multi-view 。
使用full model训练标注数据,full model对未标注的数据进行预测,辅助模型输入不同的未标注数据的部分来预测 full model的预测结果。
1、避免了测试集的数据进入到训练集,防止出现,过拟合???
2、通过辅助模型对不完全的未标注数据预测,来挖掘更深层次的信息。
列出该文贡献(该文自己觉得的)
CVT可以更好的学习表示
CVT改进了以前任务的结果,轻松有效地与多任务学习相结合:只需添加额外的预测模块。共享Bi-LSTM编码器之上的不同任务。 训练统一模型以共同执行除机器翻译之外的所有任务可以改善结果(优于多任务ELMo模型)同时减少总训练时间。
模型
整体介绍(主要是图)
对于训练集的数据输入到模型中,预测结果与标签进行比较,对于测试集,根据任务对一条测试集数据进行拆分(对任务有帮助的形式),作为输入去预测 测试集完整数据预测的结果。Loss计算是训练机的loss+测试集的loss
监督部分的loss
CVT的Loss
使用的KL散度作为计算
与multi-task结合
在bilstm编码器上添加其他的预测模块,监督学习期间随机选取一个任务,针对该任务标记数据小批量更新Lsup 监督学习损失。在学习未标注数据时,所有任务联合优化Lcvt.模型交替进行有关标记和未标记的训练
不比单个任务慢,如果联合训练6个任务,需要3倍一项模型的时间,节省了2倍时间。
模型创新点
对于测试集数据这样拆分,可以加强模型的表示学习,因为对测试集的拆分出不同的数据,更好的挖掘深层信息。相比之前使用两个模型,本模型只是增加几个预测的模块,对比之前添加整个模型是很节省的。
(仅对要进一步跟进的paper)详细介绍模型,从输入到输出,输入矩阵维度,公式等
实验
数据集及评价标准介绍
Combinatory Categorial Grammar (CCG) Supertagging 组合范畴文法:CCGBank
Text Chunking文本语块识别:CoNLL-2000 data
NER:CoNLL-2003 data
Fine-Grained NER (FGN)细粒度分词:OntoNotes (Hovy et al., 2006) dataset.
词性标注:Wall Street Journal portion of the Penn Treebank
依存分析:Penn Treebank onverted to Stanford Dependencies version 3.3.0.
机器翻译:use the English-Vietnamese translation dataset from IWSLT 2015 (Cettolo et al., 2015). We report (tokenized) BLEU scores on the tst2013 test set.
use the 1 Billion Word Language Model Benchmark (Chelba et al., 2014) as a pool of unlabeled sentences for semi-supervised learning.
结果分析
VAT对抗学习,向student模型加噪音
因为测试集是在所有任务上进行测试,所以可以减轻多任务学习的遗忘问题
多任务学习类似CVT+self-training
多任务学习确实有提升,
多任务的CVT会高于multi-task ELMO
小的multi-task与大的multitask做对比,模型大还是有优势的
CVT25%数据就可以超于监督100%数据,说明小数据量,半监督很有优势
你觉得这篇paper创新与贡献是(不一定如作者所说)?为什么?
通过CVT不同视角看数据会对模型有提升,将数据分解的更加详细,以便模型学习到更好的结果。此文也是对数据的进一步扩充
有没有进一步深入的价值?为什么?
有,数据集少的时候可以采用
列出该文弱点(或者是你觉得应该是什么问题,他解决的不好,你会如何解决?)
我觉得此类需要依靠这类问题的难易程度,如果本身问题很难(50%),在测试常常有预测错误的时候,只用一半测试集数据与完整数据是否具有可比性,
如果一半的数据拆分比较合理,导致效果优于整体呢,
既然有效,为什么不将训练集也做同样的拆分处理和正确标签比较?
感觉对不同任务个性化拆分数据,有点像去猜遮掩部分并进行预测。
该文对你的启发是?
可以从数据的不同角度出发看数据,让模型学会更细的看数据。
列出其中有价值的需要进一步阅读的参考文献