十二壳-CSDN博客

原创 mmagic配置

配置环境 torch = 1.10.0 cuda = 11.1输出1.0.0运行解决：将mmgic目录下的configs文件夹全部拷贝到 apis文件夹下AttributeError: module 'torch' has no attribute 'frombuffer' torch1.10.0后才有frombuffer，重新安装torch1.10.0解决：据说是因为torch版本和mmcv无法匹配所致，根据这个重新安装mmcv==2.0.0rc4依旧报错。

2023-05-18 22:58:50 1186

原创出现ImportError: libgthread-2.0.so.0: cannot open shared object file: No such file or directory错误

输入命令 chmod 777 /tmp。

2023-01-13 21:53:08 260

原创李宏毅 GAN

从GAN的角度来看，在train GAN的时候，generator从来没见过真正的image长什么样，如果通过auto-encoder的架构，generator不仅仅要骗过discriminator，它见过真实的图片长什么样，所以VAE GAN学起来会更稳一点。一开始的generator随机生成一些图片，discriminator收到生成的图片和真实的图片进行判断，discriminator学习给真实数据高分数，给生成数据低分数。Discriminator，判断生成的图片的真假，越像真则数值越大。

2022-12-20 19:50:31 221

转载 VAE原理

AE简单来说就是encode先压缩真实样本成一个隐变量（一般用z表示），在逆向decode还原生真实样本通大小的新样本。调整中间参数，使得前后样本尽量相似或相同，这样中间隐变量就能展现原来样本的特征了。VAE在此基础上，生成Z前，添加方差（即噪音），构成一个分布式结构，其它基本与AE相同。1.使用one-hot编码我们用[1, 0, 0, 0]代表猫，用[0, 1, 0, 0]代表狗。虽然这要没什么问题，但是我们最多只能储存4张图片。当然，我们也可以增加向量的长度和网络的参数，那么我们可以获得更

2022-12-08 11:49:53 623

转载 SMPL介绍

摘录自https://zhuanlan.zhihu.com/p/158700893，介绍的非常详细，摘取SMPL部分记录。

2022-12-07 16:08:01 578

原创贝叶斯/朴素贝叶斯

2022-09-09 16:12:14 252

原创自监督表征预训练

BEiT：BEiT将可见图像块的颜色信息和掩码图像块掩码一起输入到ViT中，然后ViT输出通过一个线性层来做预测。CAE：将可见图像块输入到编码器中，提取可见图像块表征，在编码表征空间中做预测，使掩码图像块表征和从可见图像块中预测得到的表征一致，将预测的掩码图像块的表征输入到decoder预测图像块。掩码图像建模 (MIM) 是指：将图像中一些图像块掩码掉，用其他剩下的可见的图像块 (Visible patches) 来预测被掩码掉的图像块。

2022-09-09 11:16:50 907

原创清华镜像源

Simple Index

2022-09-01 20:21:57 299

转载冲量（momentum）

所以动量在学习率较小时可以起到一个加速收敛的作用，在学习率过大时减小收敛时的震荡幅度。链接https//www.jianshu.com/p/58b3fe300ecb。当学习率过大时，容易产生震荡，错过最优值；当学习率过小时，收敛速度就会十分缓慢。在梯度下降时，学习率对搜索最小值产生一定的影响。当使用冲量时，则把每次。冲量就可以缓解这一问题。考虑为本次的梯度下降量。...

2022-07-26 10:16:40 419

转载直接回归和高斯热图

原文链接：Numerical Coordinate Regression=高斯热图 VS 坐标回归 - 知乎 (zhihu.com)（1）采用全连接层直接回归坐标点，例如yolo-v1。该类做法的优点是输出即为坐标点，训练和前向速度可以很快，且是端到端的全微分训练；缺点是缺乏空间泛化能力，也就是说丢失了特征图上面的空间信息。前面提到了空间泛化这个词，空间泛化是指模型训练期间在一个位置获得的知识在推理阶段推广到另一个位置的能力，举例来说，如果我在训练阶段有一个球一直在图片左上角，但是测试阶段球放在了右下角了

2022-06-18 20:15:44 1314

转载卷积的三种类型：full,same,valid

valid滑动步长为S，图片大小为N1xN1，卷积核大小为N2xN2，卷积后图像大小：(N1-N2)/S+1 x (N1-N2)/S+1该卷积的padding = 0valid卷积,即仅使用每个卷积的有效部分. same滑动步长为1，图片大小为N1xN1，卷积核大小为N2xN2，卷积后图像大小：N1xN1 full滑动步长为1，图片大小为N1xN1，卷积核大小为N2xN2，卷积后图像大小：(N1+N2-1) x (N1+N2-1)原文链接：https://blog.csdn.net/weixin_

2022-06-17 15:08:24 234

转载全连接层的作用

(25条消息) 全连接层的作用_bl128ve900的博客-CSDN博客_全连接层的作用

2022-06-17 11:07:20 303

原创网络压缩李宏毅

1.网络剪枝：网络中的很多参数没有用到。训练出一个大模型—>评估神经元或者权重的重要性—>移除—>将新网络放到原来的数据上fine-tuning（一次减掉太多会有损害，进行迭代删除）为什么不直接训练一个小模型：大模型比较容易优化。对权重进行剪枝，网络变得不规则，权重被剪掉的部分补0。对神经元进行剪枝，将神经元和它前后连接的权重都去掉。在实践过程中我们可以感受到大的网络比小的网络更容易训练，而且也有越来越多的实验证明大的网络比小的网络更容易收敛到全局最优点而不会遇到局部最优点和鞍点的

2022-05-24 14:53:01 199

原创 Graph Stacked Hourglass Networks for 3D Human Pose Estimation

方法重复使用编码器-解码器，图形结构特征在三种不同尺度的骨骼中表示，获取局部和全局特征。使用不同深度中间特征的多层次特征学习方法。目前的基于GCN的方法有一些局限性：图卷积利用所有关节点信息，可以看做是所有特征仅在“一个尺度”上处理，很难获取全局和局部信息的特征。其次，大多数现有方法都是用一种简单的架构，顺序连接图卷积层。然而，由于多尺度特征所需的上采样和下采样操作是在图像上定义的，并且图形具有不规则的结构，因此此类方法不能直接应用于图形结构数据。方法贡献：1.提出了适用于提取多尺度人体骨骼特征

2022-05-20 16:04:11 661 1

原创 Modulated Graph Convolutional Network for 3D Human Pose Estimation

论文主要改进普通图卷积的两个缺点。共享每个图卷积之间的特征变换，阻止了他们学习不同节点之间的不同关系。而且图是根据人体骨骼定义的，人类活动往往会表现出超出身体关节自然连接的运动，例如跑步时胳膊和腿之间的联系。论文提出了权重调节和亲和力调节（调整GCN中的图结构）。一个图包含G={V,E}，V是N个节点，E是边。边之间的关系可以表示为邻接矩阵A∈ {0,1}N×N每个节点i有D维度的特征hi∈RD。所有节点的特征聚合起来就是H∈RD×N。图卷积按照以下进行聚合输入特征，H′=σ(WH˜A)。W是一个可学习

2022-05-20 10:59:38 722 7

原创图卷积学习记录

ST-GCN：空间图卷积+时间图卷积，空间图卷积为重点。图卷积：数字图像是一个二维的离散信号，对数字图像做卷积操作其实就是利用卷积核（卷积模板）在图像上滑动，将图像点上的像素灰度值与对应的卷积核上的数值相乘，然后将所有相乘后的值相加作为卷积核中间像素对应的图像上像素的灰度值，并最终滑动完所有图像的过程。用随机的共享的卷积核得到像素点的加权和从而提取到某种特定的特征，然后用反向传播来优化卷积核参数就可以自动的提取特征，是CNN特征提取的基石。在试图得到节点表示的时候，容易想到的最方便有..

2022-05-19 17:01:40 277

原创 3D姿态估计（GAST）

1.下载数据集，只用到human3.6m数据集中的2D数据集和3D数据集。将数据集划分为训练集和测试集。（直接将2D数据集输入进行训练，得出的prediction和3D的groundtruth做比较）2.在数据集中提取数据，得相机参数，2D关键点和3D关键点。cameras_valid, poses_valid, poses_valid_2d = fetch(subjects_test, action_filter, dataset, keypoints, args.downsample)3.

2022-05-17 11:49:23 802

原创 model.train()和model.eval()

训练完 train 样本后，生成的模型 model 要用来测试样本。在 model(test) 之前，需要加上model.eval()，否则只要有输入数据，即使不训练，model 也会改变权值。这是model中含有的 batch normalization 层所带来的的性质。因此在验证和测试做model.eval（）时，框架会自动把BN和DropOut固定住，不会取平均，而是用训练好的值，不然的话，一旦test的batch_size过小，很容易就会被BN层导致生成图片颜色失真极大。model.trai

2022-05-17 10:16:06 544

原创 human3.6数据集

Joints in H3.6M -- data has 32 joints, but only 17 retained; these are the indices.序号数据集标注顺序关节名中文名 0 0 hip 臀部 1 1 rhip 右臀部 2 2 rknee 右膝盖 3 3 rfoot 右脚踝 4 6 lhip 左臀部 5 7 lknee 左膝

2022-05-14 16:35:39 1682

原创过滤器和卷积/卷积中的通道问题,batchnorm2d,batch

一直对这个的认识很混乱，记录下来自己学习使用。卷积核和过滤器的区别：卷积核：长和宽，二维过滤器：长宽，深度，三维当处理单通道的时候，卷积核等同于过滤器。当处理多通道时，例如RGB图像，三个卷积处理不同通道的图像，最后将处理的数据相加，这三个卷积合在一起成为过滤器。in_channels 取决于图片的类型，out_channels取决于过滤器的数量。这个图非常清楚...

2022-05-14 11:48:34 1066

原创方法记录。。

****SA-NET: Shuffle Attention For Deep Convolutional Neural Networks论文地址：https://arxiv.org/pdf/2102.00240.pdf将输入特征分成组，每一组的特征进行split，分为两个分支，分别计算channel attention和spatial attention，两种attention都使用可训练的参数。将两个分支的结果concat到一起然后合并，得到与输入尺寸一样的feature map。最后，用一个 shu

2022-05-13 21:22:47 164

原创 COCO数据集标注

自己学习记录用，转载的知乎Object Keypoint 类型的标注格式1，整体JSON文件格式比如上图中的person_keypoints_train2017.json、person_keypoints_val2017.json这两个文件就是这种格式。Object Keypoint这种格式的文件从头至尾按照顺序分为以下段落，看起来和Object Instance一样啊：{ "info": info, "licenses": [license], "images

2022-05-10 15:58:00 257

原创【无标题】

1.在哪里利用了yolo来进行目标检测2.对于骨架的估计是在整个图上进行处理还是在yolo检测出的检测框中进行（没有找到在检测框中操作的代码）3.得出了多少个热图，形状是什么样的4.在训练时怎么引入的数据集，怎么进行的数据预处理，怎么做到替换数据集获取视频，将视频一帧一帧的分开。对每一帧的视频用目标检测检测出人体框，再通过特征处理得出人体关节点，取值最大的那个，将热图中的关键点映射回原视频中。det_loader实例化DetectionLoader函数，该函数调用YOLO检测模型检测出人员目

2022-05-09 10:19:52 393

原创 ubuntu系统下unity导入视频报错，黑屏无法播放解决方法

ubuntu系统下导入mp4视频会黑屏无法播放并且报错因为ubuntu系统下的unity识别的视频文件类型是.webm扩展的文件，而且编码格式为VP81.可以使用Pr来改变视频格式，方法参考pr导出WebM VP8带透明通道视频并导入到unity使用 - 简书我并没有尝试用Pr自己转格式。2.视频转格式软件，导入mp4视频。选择to webm(VP8/VP9)导出视频。此时将视频导入unity可以播放，不会报错。在解决问题中下载了其他人分享的格式转换软件，感觉还是很好用的，下面是文件安装包。

2022-03-21 10:41:06 5080 3

原创 unexpected EOF, expected xxxxxx more bytes. The file might be corrupted.

在运行程序的时候碰到的问题。因为网络环境不好，导致下载的faster-rcnn的预训练模型中途下载失败。在网上找了很久解决方案，说是删除下载失败的文件重新下载，但是我找不到那个失败文件，也没有找到checkpoints文件。于是在/usr/local/anaconda3/lib/python3.8/site-packages/torch这个路径下找到了hub.py文件，在load_state_dict_from_url方法中，model_dir是设置预训练文件存储路径的，默认为None，重新设置一个文件

2022-03-18 15:00:10 3231

weixin_45436729的博客