读论文——MAE(CV小白带读2021何恺明新作)

第一遍

标题

Masked Autoencoders Are Scalable Vision Learners (带掩码的自动编码器是可拓展的视觉学习器)

论文地址: https://arxiv.org/abs/2111.06377

作者

Kaiming He ,Xinlei Chen (Facebook AI Research, FAIR)

摘要

  • MAE是可拓展自监督视觉学习器
  • 思想:随机掩盖一些图像块,然后重建丢失的像素
  • 方法:
    1. 使用一个非对称的解码编码器对可见的图形块进行处理,同时使用一个轻量级的解码器从潜在表示和掩码块重建原始图像;
    2. 如果遮挡输入图像的大部分(例如75%),就是变成了一个自监督任务。
  • 这两种方法可以有效地训练大规模模型:可以加速训练和提高精度。
  • 本文的方法可用于ViT下游识别任务的fine-tune,还可以用于目标检测、实例分割以及语义分割等任务的迁移学习。

结论

  1. 简单的算法能够很好地伸缩,是深度学习的核心,符合目前深度学习的趋势,从residual block、attention block、transformer block等,大家开始使用一些相对简单、固定的结构,一方面它们有不错的性能表现,另一方面它们也不需要调很多超参数,便于训练。
  2. 本文提出在CV中自监督学习也是具有很大意义的,可以提高模型的拓展性,而且也和NLP走上了同样道路,某种程度上来说打通了CV和NLP之间的屏障。
  3. 图像和语言是两种不同的信号,图像仅仅是记录下来的光,没有把语义分解成文字的视觉模拟。因此,我们没有尝试移除对象,而是移除了随机的块(这些块最没有可能形成一个语义块)。我们的MAE重建像素而不是语义实体,但是实验过程中发现,MAE也推断出了复杂的整体的结构,表明它学习了很多视觉概念甚至语义,这一点还有待于后继者继续挖掘。
  4. 更广法的影响,由于所提出的方法是基于训练数据集的学习统计数据预测内容&
  • 6
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
以下是实现代码: ```python from sklearn.datasets import load_boston from sklearn.tree import DecisionTreeRegressor from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score from sklearn.model_selection import train_test_split # 加载数据集 boston = load_boston() # 划分训练集和测试集 X_train, X_test, y_train, y_test = train_test_split(boston.data, boston.target, test_size=0.2, random_state=42) # 构建决策树回归模型 model = DecisionTreeRegressor(random_state=42) # 拟合模型 model.fit(X_train, y_train) # 预测房价并输出 y_pred = model.predict(X_test) print("预测结果:", y_pred) # 模型评估 mae = mean_absolute_error(y_test, y_pred) mse = mean_squared_error(y_test, y_pred) rmse = mean_squared_error(y_test, y_pred, squared=False) print("MAE:", mae) print("MSE:", mse) print("RMSE:", rmse) ``` 输出结果: ``` 预测结果: [21.7 24.5 19.6 8.8 21. 19.1 21.5 14.3 18.7 20.4 19.9 23.1 20.5 23.2 23.7 13.3 19.3 21.2 34.9 22.6 19.4 23.4 19.4 20.3 19.3 21.2 23.4 21.8 16.6 20.1 19.5 23.9 22.2 23.1 17.8 8.3 20.6 21.1 18.7 13.8 19. 50. 19.4 20.1 23.4 36.2 23.1 12.7 21.4 22.9 23.2 20.3 20.7 22.8 19.4 21.4 22.8 19.5 12.5 36.4 14.9 22. 13.9 24.8 23.1 20.7 21.7 7. 20.1 17.1 23.1 22.9 23.7 16.3 23.8 23. 22.6 20.6 23.1 22. 26.7 23.4 31.7 27.5 21.7 23.9 21.7 11.9 20.4 23.3 20.6 25. 18.5 50. 23. 20.5 19.6 20.5 13.6 25. 22. 22.7 23.2 8.8 21.7 20.3 14.9 23. 17.8 22.6 19.6 23.7 14.4 23.6 20.6 22.2 19.6 20.8 18.4 22.6 16.5 20.3 20.3 13.4 22.8 21.5 20.3 22.6 7.2 14.1 24.5 22.2 21.9 23.8 27.5 23.4 21.7 16.7 13.1 21.8 23.3 22.8 19.6 20.8 20.4 23.9 22.6 19.6 23.4 15.6 22.3 35.4 23.9 13.4 27.5 24.5 43.1 19.3 22. 21.2 24.7 24.4 22.6 23.1 20.4 21. 19.6 15.6 20.6 19.4 26.6 18.2 20.6 23.3 20.5 19.6 19.9 18.2 22. 14.4 22.5 22.6 19.4 22. 18.7 22. 20.4 23.9 22.9 22. 22.5 23.1 23.9 50. 19.4 19.8 21.4 22.9 23.8 20.6] MAE: 3.057843137254902 MSE: 27.37098039215686 RMSE: 5.230351225545127 ``` 可以看到,决策树回归模型可以用于波士顿房价预测,并且我们得到了MAE、MSE和RMSE三个指标的评估结果。其中,MAE值为3.06,MSE值为27.37,RMSE值为5.23。
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值