迁移学习 transfer learning

这里写图片描述
2015_11_25老文章了。思路依旧是【预训练的视觉模型+无标签的数据对=新的模态】
这里写图片描述
代码:https://github.com/s-gupta/fast-rcnn/tree/distillation
实验以pool5层计算loss。利用teacher model教会一个新的网络mid-level semantic representation. Loss choose L2 distance。
这里写图片描述
2016_10_27 这篇文章主要讲的是多任务迁移。【预训练的视觉模型+无标签的音视频对=好的音频模型】。也有原始代码,同时提供了他们整理的数据库,叫做Flickr-SoundNet。
这里写图片描述
数据:从Flickr上下载了大量无标注的数据,200,0000训练。使用popular标签和字典中的关键词。语音信号预处理:转成MP3,下采样到22khz,8bit量化。损失采用KL散度。两个视觉层的模型都是预训练好的。
这里写图片描述
2017CVPR论文,讲的是recipes and image的检索。【这篇文章和See,Hear, and Read: Deep Aligned Representations很相似,一个有true label, 就用true label 对他们进一步区分;没有true label,就用teacher-student model进行联合处理。上层都要考虑中间表达层的损失】
这里写图片描述
Skip-thoughts 将中间句子编码到语义层,解码出前一个句子和后一个句子。参考的是arxiv 2015/6/22的一篇文章。用无监督的方式学习一个有顺序的句子的向量。文章中叫做skip-instructions vectors. 然后输入到一个LSTM中【因为有顺序】。
这里写图片描述
由于成分信息没有顺序,因此采用BLSTM。
损失采用这里写图片描述
和See,Hear, and Read: Deep Aligned Representations 这里写图片描述 有异曲同工的效果。都是让正样本的相似度大,负样本的相似度小。但是它还同时加上了semantic regularization,就是将类别的信息也考虑了,两个模态采用相同的top model。因此,最后的损失为两者的加权:对于不重要的子任务用小的权重。
这里写图片描述
优化:分布优化。如果同时优化整体的模块,容易导致网络不收敛。之前的经验告诉我们,要先分布优化每一个子系统,再对完整的系统finetuning。
这里写图片描述
2017/6/3,主要用于跨模态的检索和迁移学习,得到三个模态对齐的不可逆的表示方式。我觉得这篇文章的创新点:【三模态迁移】
这里写图片描述
创新点:
双模态->三模态;
采用两个loss:teacher loss 和pair loss,保证他们的一致性和差异性;
这里写图片描述这里写图片描述
训练的时候,三模态统一的数据不好找,因此采用image-sound和image-text的数据训练,最后发现可以扩展到sound->text上去。
这里写图片描述
这篇文章2017/8/1发表的,比较新,才过去两个月。这篇文章不一样的地方在于,它利用AVC任务【学习音频和视频是不是匹配的】,学习sound和video的含义。
这里写图片描述
音频输入采用log spectrogram。48k audio ->log spectrogram->257*199*1 features.视频采用三通道的RGB图片,卷积后面加着BN和ReLU激活。用Flickr-SoundNet训练,然后用labeled Kinetics-Sounds作为评价。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值