- 博客(46)
- 收藏
- 关注
原创 【ubantu】服务器深度学习配置记录
(base) lizhe-427@ser427:~/下载/pycharm-community-2022.2.3/bin$ sudo sh pycharm.sh。进入到/home/lizhe-427/下载/pycharm-community-2022.2.3/bin。3.启动pycharm报错。
2022-10-19 09:21:05 584 1
原创 【代码错误记录】显示数据集图片-图片tensor问题
matplotlib.pyplot.imshow()函数的输入需要是二维的numpy或者是第三维度是3或4的numpy,解决这个问题的关键就是理解了imshow函数的参数。
2022-10-04 16:51:45 862 1
原创 【深度学习】语义分割:论文阅读:(2021-12)Mask2Former
论文:Masked-attention Mask Transformer for Universal Image Segmentation代码:官方-代码代码视频:b站论文讲解笔记参考:翻译版Mask2Former在MaskFormer的基础上,本文的改进呢**主要是mask attention还有high-resolution features,**本质上是一个金字塔,剩下的一些关于训练上的还有optimization上改进呢,能够提高训练速度masked attention我们知道dec
2022-06-04 11:23:58 8700 1
原创 【深度学习】语义分割:论文阅读(NeurIPS 2021)MaskFormer: per-pixel classification is not all you need
目录详情知识补充语义分割实例分割动机Related WorksPer-pixel classification formulationMask classification formulationMaskFormerPixel-level moduleTransformer moduleSegmentation module掩膜分类推理语义推理详情论文:Per-Pixel Classification is Not All You Need for Semantic Segmentation / Mas
2022-06-01 19:26:22 6019 1
原创 【深度学习】语义分割:论文阅读:(CVPR 2022) MPViT(CNN+Transformer):用于密集预测的多路径视觉Transformer
这里写目录标题0详情1摘要2 主要工作3 网络结构3.1 Conv-stem3.2 Multi-Scale Patch Embedding3.3 Multi-path Transformer3.3.1 多路径Transformer和局部特征卷积CoaT的因素分解自注意深度可分离卷积3.3.2Global-to-Local Feature Interaction4 实验- Semantic segmentation5总结0详情论文:MPViT : Multi-Path Vision Transformer
2022-05-31 15:41:13 9657 2
原创 【深度学习】语义分割-源代码汇总
目录Transformer卷积Transformer1.官方-vision_transformer2.官方- Swin-Transformer 3.官方-Swin-Transformer-Semantic-Segmentation4.官方-SETR5.官方-segformer卷积
2022-05-24 19:34:47 1490
原创 【实验】vit代码
这里写目录标题参考讲解一:代码+理论版本一:lucidrains1. 大佬复现版本给的使用案例2. Transformer结构3. Attention4. FeedForward5. ViT操作流程版本二 :rwightman 源码可直接运行PatchEmbed模块Attention模块MLP Block(图中的名字)/FeedForward类(代码中的实现)Encoder Block主模块VisionTransformer类参考霹雳吧啦Wz-pytorch_classification/vision_
2022-05-23 16:29:24 5813 3
原创 【实验】语义分割-数据集
这里写目录标题参考数据集VOC 2012 数据集组件预处理数据总结代码参考视频李沐-语义分割和数据集【动手学深度学习v2】笔记李沐视频-笔记视频笔记本文主要讲语义分割的经典数据集——VOC2012,的读取。一句话概括语义分割:在图片中进行像素级的分类数据集最重要的语义分割数据集之一是 Pascal VOC 2012这个数据集有自己的格式 – VOC格式,它是一个使用非常广泛的格式(VOC、COCO 都是比较有名的数据集)VOC 2012 数据集组件ImageSets/Segmenta
2022-05-21 20:22:58 874
原创 【深度学习】语义分割:论文阅读(没太懂):(2022-1)Lawin Transformer:大窗口注意力改进多尺度表示的语义分割
目录详情详情论文代码
2022-05-19 19:38:25 2763 2
原创 【深度学习】(ICCV-2021)PVT-金字塔 Vision Transformer及PVT_V2
目录详情详情名称:Pyramid Vision Transformer: A Versatile Backbone for Dense Prediction without Convolutions论文:原文代码:官方代码笔记参考:1.语义分割中的Transformer(第三篇):PVT — 用于密集预测任务的金字塔 Vision Transformer...
2022-05-17 20:02:32 9040 5
原创 【深度学习】语义分割-数据集调研-处理方法
目录参考笔记简述数据集ADE20K数据量场景数据集格式:Cityscapes数据量参考笔记【语义分割】——语义分割数据集总结 ADE20K/cityScapes/VOC12_AUG简述不同的图像语义分割方法在处理相同类型的图像时的效果参差不齐,而且不同的图像语义分割方法擅长处理的图像类型也各不一样。为了对各种图像语义分割方法的优劣性进行公平的比较,需要一个包含各种图像类型且极具代表性的图像语义分割数据集来测试并得到性能评估指标。下面将依次介绍图像语义分割领域中常用的数据集,所有常用数据集的数据对比
2022-05-16 20:27:54 1962
原创 【深度学习】实验流程-语义分割框架
这里写目录标题笔记参考常见的Research workflowswin做backbone实验方法笔记参考1.【干货】深度学习实验流程及PyTorch提供的解决方案常见的Research workflow某一天, 你坐在实验室的椅子上, 突然:你脑子里迸发出一个idea你看了关于某一theory的文章, 想试试: 要是把xx也加进去会怎么样你老板突然给你一张纸, 然后说: 那个谁, 来把这个东西实现一下于是, 你设计了实验流程, 并为这一idea 挑选了合适的数据集和运行环境, 然后你废寝忘食
2022-05-08 20:28:29 1500
原创 【深度学习】CNN+Transformer汇总
这里写目录标题参考前言cnn与transformerConformer(国科大&华为&鹏城)详情参考1.CNN+Transformer算法总结前言总结了2021年以来,所有将CNN与Transformer框架结合的CV算法在卷积神经网络(CNN)中,卷积运算擅长提取局部特征,但在捕获全局特征表示方面还是有一定的局限性。 在Vision Transformer中,级联自注意力模块可以捕获长距离的特征依赖,但会忽略局部特征的细节。cnn与transformerCNN具有非常良好
2022-05-08 20:28:13 18077
原创 【深度学习】名词解释
这里写目录标题0.详情0.详情名称:Encoder-Decoder with Atrous Separable Convolution for Semantic Image Segmentation时间:2018单位:Robin A. M. Strudel论文:论文代码:paperwithcode的代码笔记参考:
2022-05-07 19:51:58 2227
原创 【深度学习】语义分割-综述(卷积)
这里写目录标题0.笔记参考1. 目的2. 困难点3. 数据集及评价指标3.1数据集3.2评价指标4.实现架构5. 模型发展5.1基于全卷积的对称语义分割模型5.1.1FCN(2014/11/14)5.1.1.1具体过程5.1.1.2 CNN 与 FCN5.1.1.3全连接层 -> 成卷积层5.1.1.4 upsampling5.1.1.5局限5.1.2 SegNet(2015/11/2)5.1.2.1 结构5.1.2.2 decoder变体SegNet-Basic5.1.2.3 对比SegNet和FC
2022-05-07 18:57:16 3276 1
原创 【深度学习】语义分割-研究思路
这里写目录标题笔记参考截至2020-5找思路方法文章核心实现笔记参考1.知乎回答:语义分割如何走下去截至2020-5找思路方法链接:https://www.zhihu.com/question/390783647/answer/1221984335(1)手动设计网络结构 -> NAS搜索;(2)固定感受野 -> 引入空间注意力做感受野自动调节;(3)效果提升不上去 -> 换个思路做实时分割来对比结果;(4)有监督太热门 -> 引入弱监督 (GAN, 知识蒸馏, …)
2022-05-05 16:56:57 2193
原创 【深度学习】论文阅读:(ICCV-2021))Segmenter:Transformer for Semantic Segmentation
这里写目录标题详情详情名称:Segmenter:Transformer for Semantic Segmentation时间: last revised 2 Sep 2021 (this version, v3)]单位:Robin A. M. Strudel论文:论文代码:
2022-04-29 17:05:25 3362 2
原创 论文阅读框架
这里写目录标题参考框架一框架二信息简介创新点AbstractMethodExperiments参考1.如何读论文2.框架一 swim3.框架二 Segmenting框架一摘要论文速读1.论文试图解决什么问题?2.这是否是一个新问题?3.这篇文章要验证一个什么科学假设?4.有哪些相关研究?如何归类?谁是这一课题在领域内值得关注的研究员?5.论文中提到的解决方案之关键是什么?6.论文中的实验是如何设计的?7.用于定量评估的数据集是什么?代码有没有开源?8.论文中的实验及结果有没有
2022-04-28 17:52:18 201
原创 【深度学习】语义分割-论文阅读:( NeurIPS 2021 )SegFormer
这里写目录标题0.详情1.动机2. 改进点3.相关工作4. Method4.1 Hierarchical Transformer Encoder4.1.1 分层特性表示(Hierarchical Feature Representation)4.1.2 重叠合并(Overlapped Patch Merging)4.1.3 自注意机制(Efficient Self-Attention)4.1.4 混合前馈网络(Mix-FFN)4.2 Lightweight ALL-MLP DecoderALL-MLP解码结
2022-04-26 11:28:30 3769
原创 【深度学习】语义分割-论文阅读:( CVPR 2021)SETR:Rethinking Semantic Segmentation from a Sequence-to-Sequence Perspe
这里写目录标题详情详情名称:Rethinking Semantic Segmentation from a Sequence-to-Sequence Perspective with Transformers单位:复旦, 牛津大学, 萨里大学, 腾讯优图, Facebook论文:论文代码:代码
2022-04-23 12:06:45 6197
原创 深度学习:论文阅读:(ICLR-2021)Vision Transformer
这里写目录标题论文详情VIT主要思想主要部分数据处理Patch 编码器位置编码分类总结流程缺点论文详情名称:An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale研究团队:Google Research, Brain Team原文:原文参考笔记:笔记1b站视频笔记VIT主要思想将原始图片进行均匀的分成若干个patch,,每个小块可以看做成NLP当中的词,把patch展平成序列,再把分割后的patch
2022-03-29 18:09:35 2404
原创 【深度学习】论文阅读:(ICCV-2021))Swin Transformer
这里写目录标题论文详情VIT缺点改进点核心思想整体结构名称解释 Window、Patch、Token与vit区别结构过程Patch EmbeddingBasicLayerPatch MergingSwin Transform Block==Window Attention==Shifted Window Attention总结论文详情名称:Swin Transformer: Hierarchical Vision Transformer using Shifted Windows地址:原论文代码:
2022-03-17 19:39:22 7418
原创 【深度学习】步态识别-论文阅读:(T-PAMI-2021)综述:Deep Gait Recognition
论文详情:期刊:T-PAMI-2021地址:参考笔记1.Abstract本文综述了到2021年1月底在步态识别方面的最新进展,以全面概述了深度学习步态识别的突破和最近的发展,涵盖了广泛的主题,包括数据集,测试协议,最新的解决方案,挑战和未来的研究方向。 首先回顾了常用的步态数据集以及为评估它们而设计的原则。 然后,提出了一个新的分类方法,它由四个独立的维度组成,即主体表征、时间表征、特征表征和神经结构,以帮助描述和组织该领域的研究景观和文献。 在此基础上,对基于深度学习的步态识别方
2022-03-08 15:05:58 4281
原创 【深度学习】步态识别-论文阅读:(ICCV-2021)用于步态识别的上下文敏感时间特征学习
这里写目录标题论文详情论文详情名称:GaitSet: Cross-view Gait Recognition through Utilizing Gait as a Deep Set发表:2021Accepted by IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI). Journal version of arXiv:1811.06186 (AAAI 2019).论文地址:原论文...
2022-03-03 17:18:22 5586
原创 【深度学习】步态识别-论文阅读:(ICCV-2021)通过有效的全局-局部特征表示和局部时间聚合进行步态识别
这里写目录标题论文详情Abstract1. Introduction2 主要贡献3 Proposed Method3.1 Overview3.2 Local Temporal Aggregation3.3 Global and Local Feature Extractor3.4 Feature Mapping3.5 Loss Function4 Conclusion论文详情论文题目:Gait Recognition via Effective Global-Local Feature Represe
2022-01-21 00:38:27 4344 1
原创 【深度学习】步态识别-论文笔记:(ICCV-2021)用于步态识别的3D局部卷积神经网络
这里写目录标题论文详情概述达摩院视频讲解笔记挑战提出3D local CNN3D local block数据集论文摘要1 介绍2 主要贡献3 方法3.1 Formulation3.2. Instantiation3.2.1 Localization3.2.2 Sampling3.2.3 Feature Extraction3.2.4 Feature Fusion3.3 3D Local CNN for Gait Recognition4.Experiments论文详情(ICCV-2021)用于步态识别
2022-01-20 12:50:44 2511 2
原创 【深度学习】步态识别-论文阅读(无参考意义):Cross-View Gait Recognition Based on Feature Fusion
这里写目录标题摘要介绍相关工作改进提出多尺度特征融合全局和局部特征融合特征映射结论基于特征融合的跨视图步态识别摘要与人脸识别相比,步态识别是最有前途的视频生物特征识别技术之一,步态图像易于远距离捕获,步态特征对外观伪装具有鲁棒性。现有的许多步态识别方法都是针对单一场景的,如固定摄像机,但当视点发生变化时,识别精度会急剧下降。本文对现有的步态识别方法进行了改进,提出了一种基于特征融合的跨视角步态识别方法。首先,提出一种多尺度特征融合模块,提取不同粒度的步态序列特征;然后,引入双路径结构,分别学习
2022-01-07 00:23:57 4614 1
原创 计算机视觉:步态识别-综述(一)
这里写目录标题简介影响因素数据集身体表示轮廓骨架时间表示模板特征表示神经网络CNNGAN3D CNNGCN最新发展和趋势身体表示时间表示特征表示神经网络数据集挑战与未来研究方向DisentanglementSelf-supervised LearningMulti-task LearningCross-Dataset EvaluationMulti-View RecognitionMulti-biometric Recognition简介非穿戴式步态识别系统主要使用视觉,因此通常称为基于视觉的步态识别。
2022-01-06 21:08:18 9861
原创 深度学习-视频行为识别:论文阅读——双流网络(Two-stream convolutional networks for action recognition in videos)
这里写目录标题视频的行为识别two-stream(双流)主要贡献算法介绍双流模型结构光流卷积网络论文地址:ttp://de.arxiv.org/pdf/1406.2199视频的行为识别参考链接:视频的行为识别使用DL方法解决视频中行为识别/动作识别的问题解决思路有三个分支:分别是two-stream(双流)方法,C3D方法以及CNN-LSTM方法。本文将从算法介绍、算法架构、参数配置、训练集预处理、算法优势及原因、运行结果六个方面对每种算法进行阐释,并对每一个分支的算法集合总结自己的心得。本文暂
2021-12-09 18:14:06 12942
原创 深度学习:行为识别综述
这里写目录标题改进方向其他研究方向行人重识别(Person Re-Identification)多模态基于骨架的动作识别(Skeleton-based Action Recognition);改进方向在基于图卷积的行为识别工作和类似的工作中,研究重点在以下几个方面:1.如何设计GCN的输入,用一些更加具有识别能力的特征来代替空间坐标,作为网络输入。2.如何根据问题来定义卷积操作,这是非常硬核的问题。3.如何设计邻接矩阵。4.如何确定权重分配策略。邻接矩阵和权重矩阵在GCN中非常重要,其中权重矩
2021-12-02 21:38:41 6750
原创 深度识别:论文阅读_2S-AGCN CVPR2019(基于骨架的动作识别的两流自适应图卷积网络)
这里写目录标题资料过去问题主要贡献自适应图卷积层自适应图卷积块自适应图卷积网络双流网络资料论文:论文源码:代码过去问题图的拓扑是手动设置的,并且固定在所有图层和输入样本上骨骼数据的二阶信息(骨骼的长度和方向)对于动作识别自然是更有益和更具区分性的,在现有方法中很少进行研究。ST-GCN图形构建过程中三个缺点:1.使用的骨架图是启发式预定义的,仅表示人体物理结构,对动作识别不是最佳。例如读书和拍手,两只手的关系很重要,但是ST-GCN预定义的人体图中彼此距离很远,很难捕获两只手的关系;
2021-11-25 16:58:36 4394
原创 深度学习-论文阅读:动作结构性图卷积网络AS-GCN
这里写目录标题过去问题:改进创新点整体结构Actional Links (A-links)过去问题:基于关节间的固定骨架只捕捉关节间局部的物理依赖性改进对ST-GCN的一个较大的改进,都是利用图卷积网络进行行为识别。不同的是ST-GCN仅仅关注于18个关节点的骨架图上物理相邻关节点之间的关系。而本文在前者的基础上不但关注了物理相邻的关节点,而且更加注重在物理空间上不相邻关节点之间的依赖关系。解决了以下ST-GCN的缺点:1.提取通过骨骼直接连接的关节的特征,但忽略了可能包含关键模式的遥远关节
2021-11-25 13:44:03 2108
原创 深度学习:STGCN学习笔记
目录标题基于图神经网络的图分类问题GCN在行为识别领域的应用主要任务研究思路ST-GCN(SpatialTemporal Graph Convolutional Networks for Skeleton-Based Action Recognition)解读原论文解决问题主要贡献核心思想简介OpenPose 预处理基于人体关键点构造graph构造单帧graph(空间域)构造帧间graph(时间域)ST-GCN模型采样函数权重函数空域图卷积空间-时间模型分区策略可学习的边重要性权重TCNST-GCN模型的实
2021-11-10 19:47:46 28045 8
原创 深度学习:GAT
这里写目录标题来源:对于GCN的改进注意力机制GCN局限区别目的GAT特点基本思想模型比较周三上午:gat理论写完,gat代码论文案例完成下午:与gcn的论文代码比较做ppt大组会案例:论文coraGCN-dgl数据展示结果GAT-dgl结果原论文来源:对于GCN的改进注意力机制深度学习中的注意力机制从本质上讲和人类的选择性视觉注意力机制类似,核心目标也是从众多信息中选择出对当前任务目标更关键的信息。GCN局限难分配不同的权重给不同的neighbor.这一点限制了模型对于空间信息的相关
2021-11-09 10:52:48 3192
原创 深度学习:GCN案例
目录标题空手道俱乐部-写法1问题描述空手道俱乐部-写法1问题描述Zachary’s karate club” Problem定义在一个包括34个成员的空手道俱乐部里的社交网络上, 俱乐部分为两个社区, 由教员(节点0)和俱乐部主席(节点33)领导, 分别以不同颜色的圆点表示, 问题目标是希望能够预测出每个成员将更倾向于加入哪一个社区;...
2021-10-31 13:55:32 632
原创 深度学习:安装包记录
目录标题安装DGL安装DGLpython-terminalpip install -U dgl -i http://mirrors.aliyun.com/pypi/simple/ --trusted-host mirrors.aliyun.com
2021-10-26 20:25:30 150
原创 深度学习:GCN(图卷积神经网络)理论学习总结
目录来源作用原理解释核心图的概念学习新特征目标提出步骤图卷积分类特点常见问题参考来源解决:发现了很多CNN、RNN无法解决或者效果不好的问题——图结构的数据具体:对CNN:核心在于kernel,kernel是一个个小窗口,在图片上平移,通过卷积的方式来提取特征。这里的关键在于图片结构上的平移不变性:一个小窗口无论移动到图片的哪一个位置,其内部的结构都是一模一样的,因此CNN可以实现参数共享对RNN:对象是自然语言这样的序列信息,是一个一维的结构,通过各种门的操作,使得序列前后的信息
2021-10-26 19:57:06 20572 5
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人