Semi-Supervised Sequence Modeling with Cross-View Training

 

题目与摘要

本文针对什么任务?任务简要介绍下。

针对序列任务,包括分类,序列标注。

本文发现了什么问题?该文大体是怎么解决的?解决得如何?

目前监督学习从小规模的标注数据中学习,但是目前无监督学习表示出了很大的优势,所以本文提出了一种新的方法利用标注数据以及未标注数据,CVT。full model 学习 labeled data。使用辅助模型只学习数据的一部分来匹配full model的预测。很有效,尤其对于多任务学习。

解释下题目。题目起得如何?能概括内容并吸引人吗?

简单明了,概括了目标。。

介绍

这个任务以往是如何解决的?作者沿着哪条路径继续研究的?为什么?

监督学习,对语料要求较高

无监督学习,预训练不能使用标注数据,

半监督学习

作者使用半监督学习。CVT属于self-training。因为半监督学习既可以利用标注数据以及未标注数据。

目前工作存在什么问题?为什么?你觉得可能还存在什么其他问题?为什么?

self-training以往将测试集中预测的数据置信度高的数据添加进训练集。

对于标注数据正常训练,对于未标注数据,模型既作为teacher还作为student。模型在未标注的数据测试结果作为label,并对数据加噪音,作为student。图像加噪音是可行的,文本输入不是很可行。

但是之后数据是基于此模型训练的数据。如果测试集本身的结果就不高,利用测试集数据会不会扰乱。

该文准备如何解决这个问题?为什么可以这样解决?你觉得该文解决这个问题的方法如何?为什么?你觉得可以如何/或更好的解决这个问题?为什么?

使用self-training 以及multi-view 。

使用full model训练标注数据,full model对未标注的数据进行预测,辅助模型输入不同的未标注数据的部分来预测 full model的预测结果。

1、避免了测试集的数据进入到训练集,防止出现,过拟合???

2、通过辅助模型对不完全的未标注数据预测,来挖掘更深层次的信息。

 

列出该文贡献(该文自己觉得的)

CVT可以更好的学习表示

CVT改进了以前任务的结果,轻松有效地与多任务学习相结合:只需添加额外的预测模块。共享Bi-LSTM编码器之上的不同任务。 训练统一模型以共同执行除机器翻译之外的所有任务可以改善结果(优于多任务ELMo模型)同时减少总训练时间。

模型

整体介绍(主要是图)

半监督方法

对于训练集的数据输入到模型中,预测结果与标签进行比较,对于测试集,根据任务对一条测试集数据进行拆分(对任务有帮助的形式),作为输入去预测 测试集完整数据预测的结果。Loss计算是训练机的loss+测试集的loss

监督部分的loss

CVT的Loss

使用的KL散度作为计算

与multi-task结合

在bilstm编码器上添加其他的预测模块,监督学习期间随机选取一个任务,针对该任务标记数据小批量更新Lsup 监督学习损失。在学习未标注数据时,所有任务联合优化Lcvt.模型交替进行有关标记和未标记的训练

不比单个任务慢,如果联合训练6个任务,需要3倍一项模型的时间,节省了2倍时间。

模型创新点

对于测试集数据这样拆分,可以加强模型的表示学习,因为对测试集的拆分出不同的数据,更好的挖掘深层信息。相比之前使用两个模型,本模型只是增加几个预测的模块,对比之前添加整个模型是很节省的。

(仅对要进一步跟进的paper)详细介绍模型,从输入到输出,输入矩阵维度,公式等

 

 

实验

数据集及评价标准介绍

Combinatory Categorial Grammar (CCG) Supertagging 组合范畴文法:CCGBank

Text Chunking文本语块识别:CoNLL-2000 data

NER:CoNLL-2003 data

Fine-Grained NER (FGN)细粒度分词:OntoNotes (Hovy et al., 2006) dataset.

词性标注:Wall Street Journal portion of the Penn Treebank

依存分析:Penn Treebank onverted to Stanford Dependencies version 3.3.0.

机器翻译:use the English-Vietnamese translation dataset from IWSLT 2015 (Cettolo et al., 2015). We report (tokenized) BLEU scores on the tst2013 test set.

use the 1 Billion Word Language Model Benchmark (Chelba et al., 2014) as a pool of unlabeled sentences for semi-supervised learning.

结果分析

result

VAT对抗学习,向student模型加噪音

因为测试集是在所有任务上进行测试,所以可以减轻多任务学习的遗忘问题

多任务学习类似CVT+self-training

多任务学习确实有提升,

多任务的CVT会高于multi-task ELMO

小的multi-task与大的multitask做对比,模型大还是有优势的

 

CVT25%数据就可以超于监督100%数据,说明小数据量,半监督很有优势

 

你觉得这篇paper创新与贡献是(不一定如作者所说)?为什么?

通过CVT不同视角看数据会对模型有提升,将数据分解的更加详细,以便模型学习到更好的结果。此文也是对数据的进一步扩充

有没有进一步深入的价值?为什么?

有,数据集少的时候可以采用

列出该文弱点(或者是你觉得应该是什么问题,他解决的不好,你会如何解决?)

我觉得此类需要依靠这类问题的难易程度,如果本身问题很难(50%),在测试常常有预测错误的时候,只用一半测试集数据与完整数据是否具有可比性,

如果一半的数据拆分比较合理,导致效果优于整体呢,

既然有效,为什么不将训练集也做同样的拆分处理和正确标签比较?

感觉对不同任务个性化拆分数据,有点像去猜遮掩部分并进行预测。

该文对你的启发是?

可以从数据的不同角度出发看数据,让模型学会更细的看数据。

列出其中有价值的需要进一步阅读的参考文献

 

 

  • 3
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Semi-supervised classification with graph convolutional networks (GCNs) is a method for predicting labels for nodes in a graph. GCNs are a type of neural network that operates on graph-structured data, where each node in the graph represents an entity (such as a person, a product, or a webpage) and edges represent relationships between entities. The semi-supervised classification problem arises when we have a graph where only a small subset of nodes have labels, and we want to predict the labels of the remaining nodes. GCNs can be used to solve this problem by learning to propagate information through the graph, using the labeled nodes as anchors. The key idea behind GCNs is to use a graph convolution operation to aggregate information from a node's neighbors, and then use this aggregated information to update the node's representation. This operation is then repeated over multiple layers, allowing the network to capture increasingly complex relationships between nodes. To train a GCN for semi-supervised classification, we use a combination of labeled and unlabeled nodes as input, and optimize a loss function that encourages the network to correctly predict the labels of the labeled nodes while also encouraging the network to produce smooth predictions across the graph. Overall, semi-supervised classification with GCNs is a powerful and flexible method for predicting labels on graph-structured data, and has been successfully applied to a wide range of applications including social network analysis, drug discovery, and recommendation systems.

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值