咕噜船长-CSDN博客

原创 2020 Android Studio安装教程

昨天（2020.2.18）安装了Android Studio，踩了一些坑，同时由于网上大部分教程的版本较老，因此整合网上现有的资源以及根据自己的安装结果，在此进行记录，以便于日后自己回首以及供大家参考：Android Studio版本：3.5.3下载地址：https://developer.android.google.cn/studio其实国内很多安装的问题，都是由于国内无法访问...

2020-02-19 10:57:21 21289 11

原创 H20 模型推理报错: Floating point exception (core dumped)

最近在一台新到的上部署深度学习推理环境时，遇到了一个比较隐蔽的问题。在使用torch加载模型并进行这个问题比较麻烦的一点是：它不是普通的Python报错，因此没有清晰的Python traceback。程序会在底层CUDA / C++库中直接崩溃，一开始很难判断到底是模型代码、PyTorch、CUDA，还是显卡驱动的问题。经过排查后，最终发现该问题与有关。

2026-05-09 11:59:20 356

原创使用Qwen3-VL模型批量标注视频内容（视频理解）

本文记录如何利用Qwen3-VL对视频内容进行批量标注，即对文件夹中的视频进行打标。一、权重下载该权重为30B的模型，推理需要单张A100（80G）或者两张A100（如果输出长文本）；将权重下载保存到本地，加载模型时直接从本地路径加载；

2025-12-22 14:48:38 586

原创 Linux使用ffmpeg时显示缺少libx264

【代码】Linux使用ffmpeg时显示缺少libx264。

2025-09-07 15:48:57 205

NCCL，全称NVIDIA Collective Communications Library，是NVIDIA发布的一个高效的集体通信库，专为多个GPU之间提供优化的传输效率和简化应用而设计。在多机多卡的训练环境中，NCCL通过高效的通信机制来协调多个GPU之间的数据同步，是的训练过程中的梯度汇聚、参数同步等操作变得更加高效。在使用多机多卡时，NCCL采用环形策略来组织GPU之间的通信。需要根据硬件拓扑手动优化环路的设置，以避免潜在的通信瓶颈。

2025-08-31 01:06:12 1030

原创 [代码实现] 分布式训练/推理模型时，提前加载模型参数到缓存中，减少I/O延迟、加速文件访问

当跑模型加载权重A时，将A的路径给prefetch()函数即可：prefetch(A_pth)；

2025-08-23 10:10:39 308

原创 A100报错信息：Can‘t find nvmlDeviceGetNvLinkRemoteDeviceType: /lib64/libnvidia-ml.so.1: undefined symbol

看到libnvidia-ml.so，以为是环境出问题，排查了一圈...发现是爆显存了，降低显存占用就可以了。

2025-08-23 10:01:13 169

原创 DeepSpeed训练报错：RuntimeError: Error building extension ‘cpu_adam’ 及四种可能原因汇总

4. gcc版本太低，需将conda环境中的gcc版本进行升级；该报错较为复杂，经过查阅和实践后，认为和以下。

2025-08-22 01:21:57 377

原创 RoPE, 2D RoPE, 3D RoPE和复数

4）理解：通过对query和key向量进行上述复数旋转操作，使得模型能够捕捉到相对位置信息。，所以经过旋转后的query和key向量的内积包含了相对位置的信息。旋转位置编码是一种用于Transformer架构中的位置编码方法，几何意义：两次旋转的效果等于一次旋转。1）对于输入序列的每个位置的嵌入向量。3）旋转位置：对于每个位置。即实现对向量的旋转操作。

2025-08-21 11:17:23 867

原创手把手实践-图像/视频语义分割 (Easy-VideoSegment)

在本项目中，使用了Segment and Tracking Anything论文中的算法和代码，通过我们提供的推理脚本，可以非常容易地对图像和视频中的内容进行语义分割。

2025-04-29 11:26:04 1250

原创手把手实践-VQ-GAN推理+训练全流程 (Easy_VQGAN)

由于VQ-GAN出色的效果和经典设计，其单独的重建效果依旧可能会被应用到现有框架和方案中。本项目主要针对其重建效果（Reconstruction）进行推理和训练的流程梳理并提供可直接使用的训练、推理版本。

2025-04-18 16:35:46 1402 5

原创 Linux安装detectron2库

Detectron2 是Facebook AI Research 开源的计算机视觉库，它是基于PyTorch 框架构建的。Detectron2 提供了一系列丰富的功能和灵活的组件，用于实现图像和视频中的目标检测、实例分割、关键点检测等任务。

2025-04-14 14:42:16 599

原创如何仅在conda中更新gcc版本

由于在使用deepspeed时产生报错：“DeepSpeedCPUAdam" object has no attribute "ds_opt_adam"，报错原因是gcc版本过低。因此需要对gcc版本进行升级。1. 利用conda安装新版gcc。3. 查看gcc 版本。

2025-03-17 09:19:32 903

原创使用DWPose提取姿态点——对应关节

使用DWPose提取人物姿态点时，会返回一个candidates列表，长度为18，分别记录18个人体的部位点坐标。

2025-03-14 21:22:09 1252

原创 torch.load() don‘t know how to restore data location of torch.storage.UntypedStorage

使用torch.load(model_path)时报错如上。在后面加上map_location="cuda"

2025-01-17 09:45:59 383

原创 Torch.cuda相关函数

在 PyTorch 中，可以通过 torch.cuda.max_memory_allocated() 和 torch.cuda.max_memory_cached() 等函数获取 GPU 内存的最大使用情况。具体来说，它会清除从上次调用此函数以来的所有 CUDA 内存统计信息，包括 GPU 上分配的内存、已释放的内存、内存碎片等。这个函数并不会释放正在使用中的内存或减少当前 PyTorch 程序中的内存占用，而是清理那些 PyTorch 内部缓存中暂时未使用的内存。

2025-01-16 16:35:05 664

原创初识具身智能

具身智能最早出现在图灵1950年的论文Computing Machinery and Intelligence中，论文中探讨了人工智能发展的两种路径：一条路是聚焦抽象计算（比如下棋）所需的智能，而另一条路则是为机器配备最好的传感器和执行器，使其可以与人类交流、向婴儿一样进行学习。这两条道路逐渐演变成了非具身和具身智能。例如“切菜”这一行为，只有智能体身临其境的感知切菜中的力阻尼和菜的状态变化，才能真正理解“切菜“的概念，只依靠观察人切菜的动作来预测行为标签，或许永远无法理解”切”的真正含义。

2024-12-31 15:27:16 426

原创 xxxPipeline.from_pretrained(model_path)加载自定义路径下的模型结构

例如：在diffusers库中有model_A.py，其中包含模型A_function()，为了改动模型A的结构，一般会把该模型移至本地，从本地加载；而且许多子模块都来自于各种python库，例如transformers或者diffusers，当我们在本地重写了相关模型的结构（即import本地文件中的函数，而不是库中的），并且进行微调后，xxx.Pipeline.from_pretrained并不会加载我们本地的模型结构，依旧是从库中调用。

2024-12-31 15:22:34 1290

原创使用Qwen2-VL模型批量标注图像内容（图像理解）

图像存放文件夹：/home/user/data/images_need_processing，图像命名，从00000-05000.jpg，共5000张图像；该代码中，将所有图像的caption存入txt文件中，为了方便索引，使用图像名称+“#####”+描述的形式进行存储；Qwen2-VL模型可以以问答的形式得到图像的标注内容，以下记录流程以及数据的后处理过程。权重保存地址：/home/user/models/Qwen2-VL-7B-Instruct。

2024-12-24 17:25:26 2460 3

原创 ACM投稿，Rebuttal无法去掉标题Title

注：如果修改/替换了文件后还是无法解决，应该是有其他的cls文件存在，另外单独开一个rebuttal project即可。问题：去掉\maketitle后，格式会变成单栏排版；只删除\title顶部则会有两行的留白；解决：注释掉acmart.cls文件中的2402、2428、2453、2541行；链接：https://pan.quark.cn/s/de4bbb539228。需求：去除title；

2024-06-18 09:31:09 661

原创利用matplot绘制折线图（详细版-有示例数据）

【代码】利用matplot绘制折线图（详细版-有示例数据）

2024-03-22 11:19:08 1007 3

原创使用Python和PIL将RGB转换为三通道灰度图

将彩色图像转换为多通道的灰度图意味着保持图像数据的形状不变，但将每个像素的彩色表示转换为灰度值。通常灰度图像是单通道的，但如果想保持原图的三通道结构，可以用相同的灰度值填充每个通道。彩色图像通常以RGB（红、绿、蓝）格式存储，而将RGB转换为灰度值的一个常见方法是使用线性加权方法，这种方法考虑人眼对不同颜色的敏感度。灰度 = 0.2989 * R + 0.5870 * G + 0.1140 * B。使用这个公式，然后将计算出的灰度值复制到三个通道，以保持图像的多通道结构。

2024-03-22 10:09:51 1297

原创在torch包导入前import decord导致程序卡住

这两个包的导入顺序有要求，decord需要在torch后面，不然会导致程序卡住，无法运行。常用的视频解析包：decord。常用的深度学习包：torch。

2024-01-11 09:51:45 1003 1

原创记录一个Nan bug

torch bug 实验记录

2022-10-29 15:38:30 646 1

原创将二维tensor矩阵中不为0元素转换为一维向量

将二维tensor矩阵中不为0元素转换为一维向量

2022-07-31 09:26:42 1919

原创 Crowd Counting-Test 获取density map及counting number

Crowd counting Test get density map and counting number.

2022-07-06 21:35:15 412

原创 Crowd Counting-计数模型测试Code

Crowd Counting 利用train好的model进行测试

2022-07-06 21:27:36 623

原创 Crowd Counting读取data及density map

Crowd Counting 加载数据集图像及标注

2022-07-06 21:18:54 455

原创【阿里网盘】深度学习与Pytorch视频教程

我在使用不限速「阿里云盘」，赠送你 500GB 快来试试吧 ------------点此链接领取福利：https://pages.aliyundrive.com/mobile-page/web/beinvited.html?code=82530df点上面这个链接注册阿里网盘（网速很快哦），可以直接得500G（我也可以得500G）之后私聊我分享《深度学习与Pytorch视频教程》全套...

2021-11-04 15:09:38 1231

原创批量重命名文件夹中的图像并调整大小

图像处理任务或者日常生活中常用的一个操作：对文件夹中的图像进行批量重命名，并调整文件夹中图像的大小：import osimport cv2def rename(): image_floder="./image_floder/" number = 0 files = os.listdir(image_floder) for file in files: print(image_floder+file+" Change to --> "+image_floder+str(num

2021-10-05 10:21:56 339

原创 LaTex中的绝对值符号

在使用LaTex时发现的一个问题，目标公式如下：其中需要用到绝对值，查了一下，大多数教程中对绝对值的表述为：\left| C_{2} \right|即：用\left和\right控制左右两侧的竖杠，但是编译器会报错：Missing delimiter (. inserted). \left| C_{2} \right|因此这样来使用绝对值：\lvert 和\rvert\lvert C_{2} \rvert...

2021-08-27 10:47:24 114610 9

原创对于两级目录下的文件进行重命名

2021-05-07 16:43:13 1256 3

原创根据图像的明亮度将图像进行分类

存在一个文件夹，其中放着若干图像，现在想对这些图像，根据其明亮程度进行分类，分为10类（0-9），将图像自动移动到对应的类别中；其中涉及：1）读取图像的Y-U-V值，其中Y值代表图像的亮度；2）python中的文件读写操作；3）使用shutil进行文件的移动；# 这部分的代码可以参考用于文件的移动；可以处理其他任务；以下是代码部分：import osimport sysimport cv2import shutildef getTheBright(path): """

2021-05-07 16:32:28 859

原创自己制作crowd counting数据集

Crowd counting的数据集包括两部分：图像部分和标签部分标签部分主要包括每个人头的坐标点：（x, y）；常见的标签格式例如：ShanghaiTech数据集中的格式，用mat文件存储每个人头的坐标点，一张图像对应一个mat文件；当我们自己制作数据集时，需要经历以下几个步骤：1）拍摄图像或者视频；视频需要切分成帧；2）在图像上进行标点，标点的同时会记录下坐标点；3）根据这些坐标点生成每张图像对应的.mat文件；4）在训练时，将mat文件中的坐标转换为density .

2021-05-06 18:16:16 2997 28

原创 crowd counting 常用数据集百度网盘

Crowd counting 常用数据集及下载地址：包括：ShanghaiTech 数据集UCF_CC_50 数据集World 10 数据集Mall 数据集USCD 数据集百度网盘下载地址：ShanghaiTech 数据集地址：链接：https://pan.baidu.com/s/1bDy-GgYi9C_R5hUuK6iZDg 提取码：c4pvUCF_CC_50 数据集地址：链接：https://pan.baidu.com/s/1Ehohkb9Q_wc..

2021-03-08 16:48:30 2055 8

原创 crowd counting——利用高斯核函数将坐标点转换为density map

在Crowd counting领域，常用的训练方法是estimate density map，这种数据可利用高斯核函数得来，在MCNN论文中有具体过程；也可参加这篇博客：https://blog.csdn.net/zxs0222/article/details/107900465存储density map的文件目前有两种：.h5文件和.cvs文件，而数据集中常见的是.mat文件，其中记录着所有人头的中心坐标点。利用.mat生成.h5的过程可参见这篇博客：https://blog.csdn.net

2021-03-08 16:39:55 1853 8

原创 Pytorch中的VGG模型

import torch.nn as nnimport torchfrom torch.nn import functional as Ffrom torchvision import modelsclass VGGModel(nn.Module): def __init__(self): super(VGGModel, self).__init__() self.VGG_feat = [64, 64, 'M', 128, 128, 'M', 256, 2.

2021-01-07 10:28:37 635

原创将文件夹中的图像根据明亮等级分类

需求：不同的图像有不同的明亮等级，现有文件夹a，要将a中的图像（若干张）根据图像的明亮等级分为0-10，且自动分配到不同的文件夹中；如下图所示，图1为过度黑暗场景，图2为明亮场景；主要工作：将RGB到YUV空间的变化，计算Y值，并将Y值归一化，根据得到的等级进行分类；文件目录：illumination_test_images文件夹：存放需要分类的图像；illumination-level.txt：用来存放每张图像的明亮等级；illumination-test.py：主要执

2020-12-22 14:12:53 527

原创论文阅读--Ambient Sound Helps: Audiovisual Crowd Counting in Extreme Conditions

先占个坑，正在研究；

2020-12-14 19:57:47 257 2

原创期刊模板-如何去除左下角的横线

如图：这个横线无法被选中，如何删去这个横线？这是因为页面中插入了脚注；解决方法：光标定位于横线下方的回车处，右击，“定位至脚注”，将脚注删除，即可。

2020-12-02 16:43:50 5408

mysql-8.0zip安装包

MySQL是一个关系型数据库管理系统，由瑞典MySQL AB 公司开发，目前属于 Oracle 旗下产品。MySQL 是最流行的关系型数据库管理系统之一，在 WEB 应用方面，MySQL是最好的 RDBMS (Relational Database Management System，关系数据库管理系统) 应用软件。 MySQL是一种关系数据库管理系统，关系数据库将数据保存在不同的表中，而不是将所有数据放在一个大仓库内，这样就增加了速度并提高了灵活性。 MySQL所使用的 SQL 语言是用于访问数据库的最常用标准化语言。MySQL 软件采用了双授权政策，分为社区版和商业版，由于其体积小、速度快、总体拥有成本低，尤其是开放源码这一特点，一般中小型网站的开发都选择 MySQL 作为网站数据库。

2018-11-18

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

mysql-8.0zip安装包

VALSI 2020.rar

cifar数据集包括其TfRecord格式文件

redis-windows

空空如也