ai讲师老师人工智能培训讲师计算机视觉讲师叶梓：计算机视觉领域的自监督学习模型——MAE-11

人工智能大模型讲师培训咨询叶梓

已于 2022-05-13 11:13:45 修改

阅读量304

点赞数

分类专栏：人工智能讲师文章标签：人工智能 ai培训师人工智能培训人工智能老师 transformer

于 2022-05-13 11:09:14 首次发布

本文链接：https://blog.csdn.net/weixin_44292902/article/details/124747950

版权

人工智能讲师专栏收录该内容

85 篇文章 5 订阅

订阅专栏

接上一篇

P24P25

MAE的编码器部分

n Our encoder is a ViT but applied only on visible, unmasked patches .

n Just as in a standard ViT , our encoder embeds patches by a linear projection with added positional embeddings, and then processes the resulting set via a series of Transformer blocks.

n However, our encoder only operates on a small subset (e.g., 25%) of the full set. Masked patches are removed; no mask tokens are used.

n This allows us to train very large encoders with only a fraction of compute and memory.

n The full set is handled by a lightweight decoder , described next.

MAE的解码器部分

n The input to the MAE decoder is the full set of tokens consisting of ( i ) encoded visible patches , and (ii) mask tokens .

n Each mask token is a shared, learned vector that indicates the presence of a missing patch to be predicted.

n We add positional embeddings to all tokens in this full set; without this, mask tokens would have no information about their location in the image.

n The decoder has another series of Transformer blocks.

未完，下一篇继续……

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

人工智能大模型讲师培训咨询叶梓

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

【AI讲师招募】CSDN学院百万年薪招募AI讲师了！

CSDN学习

06-06

4567

CSDN学院是CSDN旗下的在校学习平台，集合了各领域资深技术专家，为广大在职IT技术人员提供优质的在校技术课程及直播。针对了AI技术大潮，CSDN学院为AI学习者准备了系统化和专业化的AI课程。如果您具备A领域研究和应用经验。乐于分享，只需加入CSDN学院参与课程研发和在线教学，无需担扰课程的版权以及宣传招生。在您享受分享知识快乐的同时，不仅可获得丰厚的经济和影响力回报，随之而来的还有：技术及教...

人脸识别三部曲

weixin_46118768的博客

09-14

1373

开始运行时，输入待录入的人脸姓名。按下s键后，开始录入人脸图像，录入两百张后，结束程序。

参与评论您还未登录，请先登录后发表或查看评论

AI讲师人工智能讲师机器学习讲师深度学习讲师叶梓简历（机器学习深度学习强化学习人工智能老师）

人工智能讲师分享前沿技术

09-24

1965

上海交通大学计算机专业博士毕业，在校期间的主研方向为数据挖掘、机器学习、AI人工智能。毕业后即进入某大型软件上市公司从事大数据、人工智能等技术相关工作。在大数据应用、人工智能等方面都有着丰富的经验。点击博客个人主页查看更多详情案例及课程：主要课程：《数据分析与数据挖掘导论》《机器学习与深度学习》《基于深度学习的计算机视觉》《强化学习与深度强化学习》《强化学习》《...

ai讲师人工智能讲师计算机视觉讲师叶梓：计算机视觉领域的自监督学习模型——MAE-14

人工智能讲师分享前沿技术

05-20

313

接上一篇 P31P32 CV大神——何恺明 n2003年5月，何恺明拿到保送清华的资格，高考获得满分900分的成绩，成为当年广东省9位满分状元之一。 n本科就读于清华大学，博士毕业于香港中文大学多媒体实验室。 n2011年加入微软亚洲研究院（MSRA）工作，主要研究计算机视觉和深度学习。 n2016年，加入Facebook AI Research（FAIR）担任研究科学家。 n2020年1月11日，荣登AI全球最具影响力学者榜单。故事还没完…… n2021年12月中旬

ai讲师人工智能讲师计算机视觉老师叶梓：计算机视觉领域的自监督学习模型——MAE-13

人工智能讲师分享前沿技术

05-17

296

接上一篇 P28P30 实验效果-ViT模型的影响 n性能惊艳：ImageNet-1K最高87.8%。与当前SOTA自监督预训练方法相比，对于 ViT-B 的表现结果都很接近。对于 ViT-L不同方法的结果就存在很大差距，这表明更大模型的挑战是减少过度拟合。 n再看最后一列，仅使用ImageNet-1K数据时，ViT-Huge模型的最高精确度为87.8%，这明显超过了所有在ImageNet-21K 预训练的ViT变种模型。实验效果-参数改变 n改变各种参数后的对比实验 .

ai人工智能培训讲师计算机视觉讲师叶梓：计算机视觉领域的自监督学习模型——MAE-7

人工智能讲师分享前沿技术

05-08

751

接上一篇 P14-P15 VAE n按苏剑林的说法：VAE本质上就是在常规自编码器的基础上，对 encoder 的结果（对应计算均值的网络）加上了“高斯噪声”，使得结果 decoder 能够对噪声有鲁棒性； n另一个 encoder（对应计算方差的网络）的作用是用来动态调节噪声的强度的。 dVAE 用Gumbel-Softmax（Jang et al.,2017;Maddison et al.,2017）松弛法来训练模型参数。 n首先要训练了一个 discre...

计算机视觉 ——上海交通大学 ppt

08-30

上海交通大学计算机视觉实验室有关计算机视觉方面的ppt。代表了国内的最新水平

树莓派超级计算机教程

08-13

教程将一步步教你如何使用树莓派打造一个超级计算机集群。文档为英文。简单概括，分如下四步： First steps to get machine up Building MPI so we can run code on multiple nodes Flash me… once（将配置好的一...

68关键点------人脸掩膜mask

weixin_46118768的博客

03-17

623

【代码】68关键点------人脸掩膜mask。

Hadoop2.2.0+Hbase0.98.4+sqoop-1.4.4+hive-0.98.1安装手册（All）_ZCX

12-27

叶梓老师整理的Hadoop2.2.0+Hbase0.98.4+sqoop-1.4.4+hive-0.98.1安装手册，非常实用

ai培训师讲师叶梓：计算机视觉领域的自监督学习模型——MAE-5

人工智能讲师分享前沿技术

03-04

5328

接上一篇 P9 P10 ViT中的Tranformer编码器 nTranformer编码器由multi-head self-attention（MSA）和MLP块的层组成。 n在每个块之前应用Layernorm（LN），在每个块之后应用残差连接。 nMLP包含具有GELU非线性的两全连接层。 Vision Transformer（ViT） n模型变种：ViT的配置基于BERT所使用的配置，如下表，BERT采用了“Base”和“ Large”模型，并添加了较大的“Huge”.

人工智能培训老师讲师叶梓：计算机视觉领域的自监督学习模型——MAE-1

人工智能讲师分享前沿技术

01-28

3085

计算机视觉领域的自监督学习模型——MAE 主讲: 叶梓 P1-P2 AutoEncoder n自动编码器是一种无监督的神经网络模型，它可以学习到输入数据的隐含特征，这称为编码(coding)，同时用学习到的新特征可以重构出原始输入数据，称之为解码(decoding)。 n自动编码器可以用于特征降维，类似主成分分析PCA，但是其相比PCA其性能更强，这是由于神经网络模型可以提取更有效的新特征。 DAE（Denoising AutoEncoder） n强制自编码器学习有用特征...

人工智能培训老师讲师叶梓：计算机视觉领域的自监督学习模型——MAE-4

人工智能讲师分享前沿技术

03-02

2727

接上一篇 P7 P8 Vision Transformer（ViT）思路上借鉴了CNN的局部特征抽取 nViT将CV和NLP领域知识结合起来，对原始图片进行分块，展平成序列，输入进原始Transformer模型的编码器Encoder部分，最后接入一个全连接层对图片进行分类。 n在大型数据集上表现超过了当时的SOTA模型。 nViT尽可能地遵循原始的transformer。 Vision Transformer（ViT） n类似BERT的[class] token..

构建云原生湖仓：Apache Iceberg与Amoro的结合实践

人工智能讲师分享前沿技术

04-22

2456

随着大数据技术的快速发展，企业对数据的处理和分析需求日益增长。传统的数据仓库已逐渐无法满足现代业务对数据多样性和实时性的要求，这促使了数据湖和数据仓库的融合，即湖仓一体架构的诞生。在云原生技术的推动下，构建云原生湖仓成为企业提升数据处理能力的重要途径。本文将探讨如何利用Apache Iceberg和Amoro在云原生环境下构建高效的湖仓一体解决方案。Apache Iceberg与云原生Apache Iceberg是一个开源的表格式，专为大规模分析型数据而设计。

推动专家混合模型的极限：用于指令调优的极端参数高效MoE

最新发布

人工智能讲师分享前沿技术

08-29

1861

人工智能咨询培训老师叶梓转载标明出处MoE是一种在特定子任务上具有专门化子模型（专家）的神经网络架构，这些子模型可以独立优化，以提高整体性能。然而，传统的MoE在大规模应用时面临挑战，因为需要在内存中存储所有专家。这不仅增加了内存的需求，而且在完全微调（full fine-tuning）时计算成本极高。为了克服这些限制，Cohere for AI的研究团队提出了一种极端参数高效的MoE方法。该方法通过将MoE架构与轻量级专家相结合，实现了在只更新不到1%的参数的情况下，与全参数微调相媲美的性能。

Panda-70M数据集：用多模态教师模型为7000万视频自动生成字幕

人工智能讲师分享前沿技术

07-14

1688

在多模态学习领域，高质量的视频-文本数据集对于训练和优化模型至关重要。然而，现有的大规模视频数据集往往存在手动标注成本高、视频内容与字幕匹配度不高等问题。为了解决这些问题， Snap 公司、加州大学和特伦托大学的研究团队推出了Panda-70M，这是一个大规模的视频数据集，包含了7000万个高分辨率、语义连贯的视频片段，每个片段都配有由多个跨模态视觉-语言模型自动生成的描述性字幕。

人工智能兼职讲师内训讲师叶梓对sony技术部进行CV计算机视觉培训

人工智能讲师分享前沿技术

12-28

1615

sony现场培训照片培训合作加个人助理扣扣526346584 基于深度学习的计算机视觉 色彩空间与预处理颜色空间 RGB颜色空间 •加法混色，彩色显示器 •3个通道 •Red通道 •Green通道 •Blue通道 •一个像素颜色值 •（b, g, r） •取值范围 •[0, 255] •[0.0, 1.0] CMY(K)颜色空间 •减法混色，印刷 •4通道 •Cyan通道 •Magenta通道 •Yellow通道 •Key通道 ...

VGMShield：揭秘视频生成模型滥用的检测与追踪技术

人工智能讲师分享前沿技术

07-15

1463

视频生成模型，如 Stable Video Diffusion 和 Videocrafter，已经能够生成合理且高分辨率的视频。但这些技术进步也带来了被恶意利用的风险，比如用于制造假新闻或进行政治宣传。因此，来自弗吉尼亚大学和亥姆霍兹信息安全中心（CISPA）的研究团队着手开发了 VGMShield，一套旨在降低视频生成模型滥用风险的综合解决方案：现实世界中的参与者分为三个不同的实体：创建者（Creator）、修改者（Modifier）和消费者（Consumer）。

人工智能培训老师讲师叶梓：计算机视觉领域的自监督学习模型——MAE-2

人工智能讲师分享前沿技术

02-14

1419

接上一篇 P3 P4 Transformer 基于自注意力的体系结构，尤其是Transformer，已成为自然语言处理（NLP）的首选模型。主要方法是在大型文本语料库上进行预训练，然后在较小的特定于任务的数据集上进行微调。 Transformer 未完，下一篇继续…… ...

图像分类详解：ILSVRC竞赛与深度学习模型应用

本资源是一份关于“图像分类”的深度学习课程讲义，由知名专家叶梓博士主讲，他来自上海交通大学，专长于机器学习、深度学习和人工智能领域，尤其在计算机视觉方面有深厚的研究。课程内容围绕图像分类展开，主要讲解...