计算机视觉
weixin_45955767
这个作者很懒,什么都没留下…
展开
-
视觉transformer面试题:vit
输入端适配通过patch0与每个patch计算value来整合信息 最后分类因为transformer的输入输出维度是一致的,transformer block的任何一个输出 无法进行很好的分类为什么不使用输出patch相加求平均?patch 可能是1616的数量,然后哪怕256256的大小,输出向量也无法接受位置编码图像切分重排后丢失位置信息,并且transformer计算无需位置信息结果分析attention的距离等价于Conv中的感受野大小可以看到越深的层数,att..原创 2022-03-01 21:20:04 · 1070 阅读 · 0 评论 -
手把手从0开始图像分类实战(持续更新)
pipeline1)尝试读取少量图片,检查图像格式,并且进行可视化,对数据做个大概了解;2)划分数据集(训练集、验证集、测试集),并且分别统计下各项指标:图像分辨率、均值、方差等,可以了解到它们之间的数据分布是否接近:224,32 imagenet3)实现数据读取1尝试单张与批次读取,以测试是否有bug:4)搭建模型:5)实现损失函数;6)选择优化算法、学习率更新策略(虽然大部分框架已有很方便的接口,但实际任务时仍有较大可能需要自定义实现7)编写训练pipepline:调用模型的前向...原创 2021-10-19 09:54:12 · 565 阅读 · 0 评论 -
CS231n作业1——数据集导入和可视化代码
# Run some setup code for this notebook.import randomimport numpy as npfrom keras.datasets import cifar10import matplotlib.pyplot as pltfrom __future__ import print_function# This is a bit of magic to make matplotlib figures appear inline in the .原创 2021-09-20 15:15:59 · 342 阅读 · 0 评论