用pytorch实现VisionTransformer

Serein_sjx

已于 2024-08-10 23:29:05 修改

阅读量140

点赞数 7

于 2024-08-10 23:24:08 首次发布

本文链接：https://blog.csdn.net/weixin_54561434/article/details/141098187

版权

VisionTransformer

项目地址点击这里
如果有帮助可以star一下，谢谢！！
VisionTransformer on CIFAR10 dataset

用pytorch实现VisionTransformer并完成CIFAR10的分类训练

Model

输入：3x32x32 ----> 3x64x64

每个3x8x8区域做conv转成64宽向量，整个图片变为8x8=64个64宽patch向量.
所有patch向量做linear转patch embedding
Class Embedding直接拼到patch embedding序列头部用于最终的分类，Class Embedding可学习
Position Embedding可学习（与Transformer不同）

Install

git clone https://github.com/JiaxingSong718/VisionTransformer.git  # clone
cd VisionTransformer

Environment

conda create -n VisionTransformer python=3.7
conda activate VisionTransformer
pip install -r requirements.txt  # install

Train

python train.py

Inference

python inference.py

Reference

VisionTransformer Paper

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Serein_sjx

关注关注

7
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

使用Pytorch从零实现Vision Transformer

穿着帆布鞋也能走猫步

09-27

445

使用Pytorch从零实现Vision Transformer

【18】Vision Transformer：笔记总结与pytorch实现

Clichong

07-29

2706

下面借这篇blog记录一些阅读笔记，如果问题，恳请指出。前言 paper原文：AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE 一开始，Transformer在Attention is all you need这篇paper中提出，解决的自然语言中的序列问题，也就是将自然语言的word变成一个sequence问题，但是有效的解决了RNN的无法并行处理的问题，并且其可以考虑全局的咨询，而self-atte.

参与评论您还未登录，请先登录后发表或查看评论

gradnorm源码 - pytorch实现

04-23

gradnorm源码 - pytorch实现

Pytorch实现Vision Transformer

weixin_44436319的博客

03-23

1149

说明 Vision Transformer是基于Transformer提出来的用于CV的深度学习模型，效果十分的显著，在训练之前最好先下载预训练权重，利用迁移学习可以让训练效果更好。如果直接进行训练，效果可能会很差。代码 ''' python3.7 -*- coding: UTF-8 -*- @Project -> File ：pythonProject -> Vit @IDE ：PyCharm @Author ： @USER: @Date ：2022/3/22 09:22:2

使用Vision Transformer来对CIFA-10数据集进行分类

Bustinfstupid的博客

08-01

1385

vit的使用，读者可以自己修改超参数用到自己的数据集上面

PyTorch 修炼篇(一) : CIFAR-10 分类模型

干啥啥不行，摸鱼第一名。

03-04

2048

import os import time import torch import torch.nn as nn # 神经网络工具箱 import torch.nn.functional as F # functional中的函数是一个确定的不变的运算公式，输入数据产生输出就ok。 import numpy as np from torch.autograd import Variable f...

关于使用Vision Transformer训练cifar-10

ling_01cs的博客

11-16

803

因为CIFAR-10数据是32*32像素大小，我们需要将它转化为224*224像素大小。

vision-transformer-pytorch:带有预训练模型的Pytorch版本的Vision Transformer（ViT）。这是CASL（https

04-13

视觉变压器的Pytorch实现。提供了预先训练的pytorch权重，这些权重是从原始jax /亚麻权重转换而来的。这是和的项目。介绍 Pytorch实施的论文。我们提供从预训练的jax /亚麻模型转换而来的预训练的pytorch权重...

VisionTransformer-Pytorch

05-14

使用pip install vision_transformer_pytorch安装，并使用以下命令加载经过预训练的VisionTransformer： from vision_transformer_pytorch import VisionTransformer model = VisionTransformer.from_pretrained('...

PyTorch笔记 - MAE(Masked Autoencoders) PyTorch源码

Mystra

12-20

2115

掩码的自编码器是可扩展的视觉学习器MAE结构：ViT的不同类型：An Image is worth 16X16 words: Transformers for Image recognition at scale。

Python世界：力扣29题两数相除算法实践

来知晓的博客

09-13

466

除法运算本质是减法，从理解原理到真正实现还是有距离，建议初步理解后，不参考任何代码，完全自己复现一遍，体会更深。注意提示：目的就是提醒越界问题：-2^31/-1=2&31，超过了整数表达范围。本问题来自于力扣29题，在做完大数相乘后，顺带也看下两数相除。将两数相除，要求不使用乘法、除法和 mod 运算符。给定两个整数，被除数。

[Python数据可视化]Plotly Express: 地图数据可视化的魅力

最新发布

William数据分析的博客

09-17

607

在数据分析和可视化的世界中，地图数据可视化是一个强大而直观的工具，它可以帮助我们更好地理解和解释地理数据。Python 的 Plotly Express 库提供了一个简单而强大的方式来创建各种地图。本文将通过一个简单的示例，展示如何使用 Plotly Express 来创建一个交互式的地图，并探讨其在地图数据可视化方面的应用。

Tcl lnit error: Can’t find a usable init.tcl in the following directories 问题解决

梦想闹钟

09-15

483

实际研究后发现，其实py2exe已经把打包需要的lib放在dist文件夹下了，但是打包后的程序运行后却没有去lib下找，而是去找系统自带的环境变量里找，所以找不到。这个问题出现在我用py2exe打包了一个包含tkinter的图形化界面，在当前电脑上运行无问题，在移动到新电脑上后提示报错、getcwd用于获取当前工作目录绝对路径，在设置环境的变量的时候它用的是绝对路径-所以也导致了在当前电脑上能用而移动后不能用。解决方法是在你的程序里重新设置下环境变量，而且是用相对路径的形式。

JUC从实战到源码：中断机制与API实现

qq_43843951的博客

09-12

1176

在Java中，线程中断是一种机制，用于通知线程应该停止当前正在执行的任务。中断通常用于协同线程之间的合作，以便让线程在适当的时候终止其工作，尤其是在长时间运行的任务或阻塞操作中。通过学了多线程以及synchronized的相关知识，接下来就到了学习线程中断知识。

opencv学习：calcHist 函数绘制图像直方图及代码实现

mohanyelong的博客

09-13

1509

opencv学习：calcHist 函数绘制图像直方图及代码实现

面试真题 | web自动化关闭浏览器，quit()和close()的区别

NHB234567的博客

09-13

427

关闭所有的浏览器窗口，销毁driver操作，则需要使用的是quit方法；当打开了多个窗口，只想要关闭非最后一个窗口的时候，使用的是close方法。这些资料，对于【软件测试】的朋友来说应该是最全面最完整的备战仓库，这个仓库也陪伴上万个测试工程师们走过最艰难的路程，希望也能帮助到你！close():只关闭当前的浏览器标签页，如果当前浏览器标签页剩下最后一个，则所有标签页面退出。是否编写过对应浏览器退出的测试用例。quit():所有的浏览器窗口退出。关闭当前的标签页，其他窗口不退出。退出当前所有的窗口；

Python——俄罗斯方块

2302_81225694的博客

09-14

1664

这段代码使用了Pygame库来实现游戏的图形界面，通过键盘控制方块的移动和旋转。游戏循环不断更新方块的位置和网格状态，并绘制在屏幕上。在方块达到底部或无法继续移动时，判断是否有满行，并清除满行的方块。游戏会根据方块的状态和移动情况不断更新，直到无法继续下落为止，游戏结束。俄罗斯方块游戏是一款经典的益智游戏，通常使用编程语言Python来实现。请注意，这只是一个简单的示例，可能还有一些功能和优化方面的改进。您可以根据自己的需求进行修改和扩展。

使用PyTorch实现递归神经网络：SPINN模型解析

"这篇文章除了介绍递归神经网络（Recursive Neural Network, RNN）的概念，还重点讨论了如何在PyTorch框架下实现RNN的变体——SPINN（Stack-augmented Parser-Interpreter Neural Network）。PyTorch因其易用性和...