自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(35)
  • 收藏
  • 关注

原创 mmagic配置

配置环境 torch = 1.10.0 cuda = 11.1输出1.0.0运行解决:将mmgic目录下的configs文件夹全部拷贝到 apis文件夹下AttributeError: module 'torch' has no attribute 'frombuffer' torch1.10.0后才有frombuffer,重新安装torch1.10.0解决:据说是因为torch版本和mmcv无法匹配所致,根据这个重新安装mmcv==2.0.0rc4依旧报错。

2023-05-18 22:58:50 833

原创 出现ImportError: libgthread-2.0.so.0: cannot open shared object file: No such file or directory错误

输入命令 chmod 777 /tmp。

2023-01-13 21:53:08 159

原创 李宏毅 GAN

从GAN的角度来看,在train GAN的时候,generator从来没见过真正的image长什么样,如果通过auto-encoder的架构,generator不仅仅要骗过discriminator,它见过真实的图片长什么样,所以VAE GAN学起来会更稳一点。一开始的generator随机生成一些图片,discriminator收到生成的图片和真实的图片进行判断,discriminator学习给真实数据高分数,给生成数据低分数。Discriminator,判断生成的图片的真假,越像真则数值越大。

2022-12-20 19:50:31 167

转载 VAE原理

AE简单来说就是encode先压缩真实样本成一个隐变量(一般用z表示),在逆向decode还原生真实样本通大小的新样本。调整中间参数,使得前后样本尽量相似或相同,这样中间隐变量就能展现原来样本的特征了。VAE在此基础上,生成Z前,添加方差(即噪音),构成一个分布式结构,其它基本与AE相同。1.使用one-hot编码 我们用[1, 0, 0, 0]代表猫,用[0, 1, 0, 0]代表狗。虽然这要没什么问题,但是我们最多只能储存4张图片。当然,我们也可以增加向量的长度和网络的参数,那么我们可以获得更

2022-12-08 11:49:53 419

转载 SMPL介绍

摘录自https://zhuanlan.zhihu.com/p/158700893,介绍的非常详细,摘取SMPL部分记录。

2022-12-07 16:08:01 438

原创 贝叶斯/朴素贝叶斯

D里面含有N个单词d1,d2,d3, P(D|h+) = P(d1,d2,d3,....,dn|h+),P(d1,d2,d3,....,dn|h+)就是说在垃圾邮件中出现跟我们目前这封邮件一模一样的邮件的概率是多大。P(h|D) = P(h) * P(D|h) / P(D) 由于只是比较概率,P(D)是相同的,则P1,P2正比于P(h) * P(D/h).P(h)是这个猜测本身独立的可能性大小(先验Prior),P(D|h)是这个猜测生成我们观测到的数据的可能性大小。给定一个邮件判断是否属于垃圾邮件。

2022-09-09 16:12:14 203

原创 自监督表征预训练

BEiT:BEiT将可见图像块的颜色信息和掩码图像块掩码一起输入到ViT中,然后ViT输出通过一个线性层来做预测。CAE:将可见图像块输入到编码器中,提取可见图像块表征,在编码表征空间中做预测,使掩码图像块表征和从可见图像块中预测得到的表征一致,将预测的掩码图像块的表征输入到decoder预测图像块。掩码图像建模 (MIM) 是指:将图像中一些图像块掩码掉,用其他剩下的可见的图像块 (Visible patches) 来预测被掩码掉的图像块。

2022-09-09 11:16:50 820

原创 清华镜像源

Simple Index

2022-09-01 20:21:57 220

转载 冲量(momentum)

所以动量在学习率较小时可以起到一个加速收敛的作用,在学习率过大时减小收敛时的震荡幅度。链接https//www.jianshu.com/p/58b3fe300ecb。当学习率过大时,容易产生震荡,错过最优值;当学习率过小时,收敛速度就会十分缓慢。在梯度下降时,学习率对搜索最小值产生一定的影响。当使用冲量时,则把每次。冲量就可以缓解这一问题。考虑为本次的梯度下降量。...

2022-07-26 10:16:40 331

转载 直接回归和高斯热图

原文链接:Numerical Coordinate Regression=高斯热图 VS 坐标回归 - 知乎 (zhihu.com)(1)采用全连接层直接回归坐标点,例如yolo-v1。该类做法的优点是输出即为坐标点,训练和前向速度可以很快,且是端到端的全微分训练;缺点是缺乏空间泛化能力,也就是说丢失了特征图上面的空间信息。前面提到了空间泛化这个词,空间泛化是指模型训练期间在一个位置获得的知识在推理阶段推广到另一个位置的能力 ,举例来说,如果我在训练阶段有一个球一直在图片左上角,但是测试阶段球放在了右下角了

2022-06-18 20:15:44 1170

转载 卷积的三种类型:full,same,valid

valid滑动步长为S,图片大小为N1xN1,卷积核大小为N2xN2,卷积后图像大小:(N1-N2)/S+1 x (N1-N2)/S+1该卷积的padding = 0valid卷积,即仅使用每个卷积的有效部分. same滑动步长为1,图片大小为N1xN1,卷积核大小为N2xN2,卷积后图像大小:N1xN1 full滑动步长为1,图片大小为N1xN1,卷积核大小为N2xN2,卷积后图像大小:(N1+N2-1) x (N1+N2-1)原文链接:https://blog.csdn.net/weixin_

2022-06-17 15:08:24 157

转载 全连接层的作用

(25条消息) 全连接层的作用_bl128ve900的博客-CSDN博客_全连接层的作用

2022-06-17 11:07:20 251

原创 网络压缩 李宏毅

1.网络剪枝:网络中的很多参数没有用到。训练出一个大模型—>评估神经元或者权重的重要性—>移除—>将新网络放到原来的数据上fine-tuning(一次减掉太多会有损害,进行迭代删除)为什么不直接训练一个小模型:大模型比较容易优化。对权重进行剪枝,网络变得不规则,权重被剪掉的部分补0。对神经元进行剪枝,将神经元和它前后连接的权重都去掉。在实践过程中我们可以感受到大的网络比小的网络更容易训练,而且也有越来越多的实验证明大的网络比小的网络更容易收敛到全局最优点而不会遇到局部最优点和鞍点的

2022-05-24 14:53:01 148

原创 Graph Stacked Hourglass Networks for 3D Human Pose Estimation

方法重复使用编码器-解码器,图形结构特征在三种不同尺度的骨骼中表示,获取局部和全局特征。使用不同深度中间特征的多层次特征学习方法。目前的基于GCN的方法有一些局限性:图卷积利用所有关节点信息,可以看做是所有特征仅在“一个尺度”上处理,很难获取全局和局部信息的特征。其次,大多数现有方法都是用一种简单的架构,顺序连接图卷积层。然而,由于多尺度特征所需的上采样和下采样操作是在图像上定义的,并且图形具有不规则的结构,因此此类方法不能直接应用于图形结构数据。方法贡献:1.提出了适用于提取多尺度人体骨骼特征

2022-05-20 16:04:11 546 1

原创 Modulated Graph Convolutional Network for 3D Human Pose Estimation

论文主要改进普通图卷积的两个缺点。共享每个图卷积之间的特征变换,阻止了他们学习不同节点之间的不同关系。而且图是根据人体骨骼定义的,人类活动往往会表现出超出身体关节自然连接的运动,例如跑步时胳膊和腿之间的联系。论文提出了权重调节和亲和力调节(调整GCN中的图结构)。一个图包含G={V,E},V是N个节点,E是边。边之间的关系可以表示为邻接矩阵A∈ {0,1}N×N每个节点i有D维度的特征hi∈RD。所有节点的特征聚合起来就是H∈RD×N。图卷积按照以下进行聚合输入特征,H′=σ(WH˜A)。W是一个可学习

2022-05-20 10:59:38 542 7

原创 图卷积学习记录

ST-GCN:空间图卷积+时间图卷积,空间图卷积为重点。图卷积:数字图像是一个二维的离散信号,对数字图像做卷积操作其实就是利用卷积核(卷积模板)在图像上滑动,将图像点上的像素灰度值与对应的卷积核上的数值相乘,然后将所有相乘后的值相加作为卷积核中间像素对应的图像上像素的灰度值,并最终滑动完所有图像的过程。用随机的共享的卷积核得到像素点的加权和从而提取到某种特定的特征,然后用反向传播来优化卷积核参数就可以自动的提取特征,是CNN特征提取的基石。在试图得到节点表示的时候,容易想到的最方便有..

2022-05-19 17:01:40 234

原创 3D姿态估计(GAST)

1.下载数据集,只用到human3.6m数据集中的2D数据集和3D数据集。将数据集划分为训练集和测试集。(直接将2D数据集输入进行训练,得出的prediction和3D的groundtruth做比较)2.在数据集中提取数据,得相机参数,2D关键点和3D关键点。cameras_valid, poses_valid, poses_valid_2d = fetch(subjects_test, action_filter, dataset, keypoints, args.downsample)3.

2022-05-17 11:49:23 588

原创 model.train()和model.eval()

训练完 train 样本后,生成的模型 model 要用来测试样本。在 model(test) 之前,需要加上model.eval(),否则只要有输入数据,即使不训练,model 也会改变权值。这是model中含有的 batch normalization 层所带来的的性质。因此在验证和测试做model.eval()时,框架会自动把BN和DropOut固定住,不会取平均,而是用训练好的值,不然的话,一旦test的batch_size过小,很容易就会被BN层导致生成图片颜色失真极大。model.trai

2022-05-17 10:16:06 479

原创 human3.6数据集

Joints in H3.6M -- data has 32 joints, but only 17 retained; these are the indices.序号 数据集标注顺序 关节名 中文名 0 0 hip 臀部 1 1 rhip 右臀部 2 2 rknee 右膝盖 3 3 rfoot 右脚踝 4 6 lhip 左臀部 5 7 lknee 左膝

2022-05-14 16:35:39 1340

原创 过滤器和卷积/卷积中的通道问题,batchnorm2d,batch

一直对这个的认识很混乱,记录下来自己学习使用。卷积核和过滤器的区别:卷积核:长和宽,二维 过滤器:长宽,深度,三维当处理单通道的时候,卷积核等同于过滤器。当处理多通道时,例如RGB图像,三个卷积处理不同通道的图像,最后将处理的数据相加,这三个卷积合在一起成为过滤器。in_channels 取决于图片的类型,out_channels取决于过滤器的数量。这个图非常清楚...

2022-05-14 11:48:34 974

原创 方法记录。。

****SA-NET: Shuffle Attention For Deep Convolutional Neural Networks论文地址:https://arxiv.org/pdf/2102.00240.pdf将输入特征分成组,每一组的特征进行split,分为两个分支,分别计算channel attention和spatial attention,两种attention都使用可训练的参数。将两个分支的结果concat到一起然后合并,得到与输入尺寸一样的feature map。最后,用一个 shu

2022-05-13 21:22:47 108

原创 COCO数据集标注

自己学习记录用,转载的知乎Object Keypoint 类型的标注格式1,整体JSON文件格式比如上图中的person_keypoints_train2017.json、person_keypoints_val2017.json这两个文件就是这种格式。Object Keypoint这种格式的文件从头至尾按照顺序分为以下段落,看起来和Object Instance一样啊:{ "info": info, "licenses": [license], "images

2022-05-10 15:58:00 211

原创 【无标题】

1.在哪里利用了yolo来进行目标检测2.对于骨架的估计是在整个图上进行处理还是在yolo检测出的检测框中进行(没有找到在检测框中操作的代码)3.得出了多少个热图,形状是什么样的4.在训练时怎么引入的数据集,怎么进行的数据预处理,怎么做到替换数据集获取视频,将视频一帧一帧的分开。对每一帧的视频用目标检测检测出人体框,再通过特征处理得出人体关节点,取值最大的那个,将热图中的关键点映射回原视频中。det_loader实例化DetectionLoader函数,该函数调用YOLO检测模型检测出人员目

2022-05-09 10:19:52 370

原创 ubuntu系统下unity导入视频报错,黑屏无法播放解决方法

ubuntu系统下导入mp4视频会黑屏无法播放并且报错因为ubuntu系统下的unity识别的视频文件类型是.webm扩展的文件,而且编码格式为VP81.可以使用Pr来改变视频格式,方法参考pr导出WebM VP8带透明通道视频并导入到unity使用 - 简书我并没有尝试用Pr自己转格式。2.视频转格式软件,导入mp4视频。选择to webm(VP8/VP9)导出视频。此时将视频导入unity可以播放,不会报错。在解决问题中下载了其他人分享的格式转换软件,感觉还是很好用的,下面是文件安装包。

2022-03-21 10:41:06 4880 3

原创 unexpected EOF, expected xxxxxx more bytes. The file might be corrupted.

在运行程序的时候碰到的问题。因为网络环境不好,导致下载的faster-rcnn的预训练模型中途下载失败。在网上找了很久解决方案,说是删除下载失败的文件重新下载,但是我找不到那个失败文件,也没有找到checkpoints文件。于是在/usr/local/anaconda3/lib/python3.8/site-packages/torch这个路径下找到了hub.py文件,在load_state_dict_from_url方法中,model_dir是设置预训练文件存储路径的,默认为None,重新设置一个文件

2022-03-18 15:00:10 2852

原创 有监督 无监督 自监督 半监督 弱监督

自己学习做笔记用的,从别人的讲解中摘抄。有监督:用有标签的数据训练。半监督:数据分为两部分,小部分有标签,大部分无标签。用有标签的数据训练网络,用训练后的网络对无标签的数据进行分类制作伪标签,用一个挑选原则挑选出认为标签正确的数据再对网络进行训练。无监督:无监督学习则是没有明确目的的训练方式,你无法提前知道结果是什么,效果也很难评估。(聚类、降维、GAN)弱监督:不完全监督(只注释一部分图像)不确切监督(对图像进行注释但对对象没有进行注释)不精确监督(错误标注)自监督:自监督学习主要是利

2022-01-10 22:29:13 4767

原创 目标检测一些内容

最近学习一下目标检测,遇到的一些问题存在这里以备使用。不同标识物体的框:边界框,bounding box,用于标识物体的位置,常用格式有左上右下坐标,即xyxy;中心宽高,即xywh。 真实框,Ground truth box, 是人工标注的位置,存放在标注文件中 预测框,Prediction box, 是由目标检测模型计算输出的框 锚框,Anchor box,根据数据集的对象位置类聚出来,用于预测框计算做参考;基于这个参考,算法生成的预测框仅需要在这个锚框的基础上进行“精修或微调fine-t

2022-01-05 16:09:30 1855

原创 百度人像分割api使用出现KeyError: ‘labelmap‘报错

需要到百度AI里面重新编辑自己创建的应用,领取对应的功能。

2021-12-27 19:34:21 479 1

原创 HRNet

Make_one_branch()Layers[] layers.appendMake one branch 创建一个新的并行行循环layers.append 在每一行的第一个进行降采样,其他循环添加make_fuse_layer()建立融合数组 构建相加累积的数组for ifor j如果j=i,不需要添加如果j>i,进行上采样j<i,进行下采样 构建 stage1 的 layer _make_layer()stage1 产生 1...

2021-12-09 20:16:55 533

原创 图像属性shape,size,dtype

import cv2if __name__=='__main__': src = "./samples/cat_dog.png" image = cv2.imread(src) GrayImage = cv2.cvtColor(image,cv2.COLOR_BGR2GRAY) #图像形状-shape返回行数,列数,通道数(如果是灰度图像,最后的通道数为一且不显示) print(image.shape) print(GrayImage.shape).

2021-11-30 11:23:52 5055

原创 插值和epipolar transformer

最近邻插值:直接去找原图像中的对应像素点,如果不是整数,则去找最近的整数点。双线性插值: 一共进行了三次插值,先找四个最近的点,在x轴进行两次插值,再用找出的两个点进行插值,找出最终的点。epipolar transformer分为epipolar sampler和feature fusion module.epipolar sampler在reference view中的p点找极线,在极线与source view的交界线上采样64个点。极线公式,取得...

2021-11-18 21:42:59 2247

原创 人体姿态估计

二维人体姿态估计:一般分为单人和多人,单人姿态估计两种方法,一种为直接回归,另一种为热图预测。直接回归是通过全连接层直接回归出关键点的位置,这个方法缺乏泛化性,泛化性是指获取其他的空间位置的能力。卷积的权重是共享的,但是全连接层是进行拉平处理的,所以如果识别的物体一直在左上角,则拉直后上面的权重更高,物体在右下角时就不容易被识别,会过拟合。但是直接回归的前向传播快。热图是主流方法,输入一个人的图片,输出关键点的热图,如果每个人要回归17个关键点,那么预测输出特征图是(batch,h_o,w_o,

2021-11-18 11:20:35 2425

原创 2021-11-14

expand_dims:增加维度,axis=0就是x轴厚度为1,将数组立起来。img_to_array就是将图片转化成数组。img_to_array 转换前后类型都是一样的,唯一区别是转换前元素类型是整型,转换后元素类型是浮点型。preprocess_input:归一化,提高运行结果。...

2021-11-14 11:52:44 1256

原创 self-attention和transformer

1.疑问:attention是着重注意某些上一层传入的内容,为什么不能直接就在全连接层加大权重?因为全连接层训练出来的权重是不会改变顺序的,输入ABC,如果A比较重要那么A的权重就更大,但是如果下一次输入的是CBA就会注意力变错。attention不是生成一个固定权重,而是生成一个与位置无关的权重函数。解决了权值固定的问题。attention:求相关性,进行矩阵运算,计算第一个和哪一个更加相关RNN和self-attention:1.虽然都可以考虑上下文信息,但是如果RNN最右端的输

2021-10-22 21:21:38 121

原创 RMPE: Regional Multi-person Pose Estimation

alphapose系统是以RMPE区域多人姿态估计为框架的多人姿态估计系统。复杂环境中的多人姿态检测是非常具有挑战性的,现在最好的人体检测算法虽然已经得到了很好的效果,但是依然存在一些错误,这些错误会导致单人检测任务(SPPE)失败,尤其是那些十分依赖人体框检测结果的。背景 当前姿态估计主流为两种方法,第一种是两步法,先检测人体边界盒,再单独估计一个盒子内部的姿态,另一种是基于部分的框架,单独估计人体的各个部分,再将这些部分分给各个人,这种方法失去了全局意识。RMPE采用了...

2021-08-03 14:52:38 667

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除