- 博客(73)
- 资源 (4)
- 收藏
- 关注
原创 2020 Android Studio安装教程
昨天(2020.2.18)安装了Android Studio,踩了一些坑,同时由于网上大部分教程的版本较老,因此整合网上现有的资源以及根据自己的安装结果,在此进行记录,以便于日后自己回首以及供大家参考:Android Studio版本:3.5.3下载地址:https://developer.android.google.cn/studio其实国内很多安装的问题,都是由于国内无法访问...
2020-02-19 10:57:21
21269
11
原创 使用Qwen3-VL模型批量标注视频内容(视频理解)
本文记录如何利用Qwen3-VL对视频内容进行批量标注,即对文件夹中的视频进行打标。一、权重下载该权重为30B的模型,推理需要单张A100(80G)或者两张A100(如果输出长文本);将权重下载保存到本地,加载模型时直接从本地路径加载;
2025-12-22 14:48:38
553
原创 分布式训练之——NCCL及相关配置
NCCL,全称NVIDIA Collective Communications Library,是NVIDIA发布的一个高效的集体通信库,专为多个GPU之间提供优化的传输效率和简化应用而设计。在多机多卡的训练环境中,NCCL通过高效的通信机制来协调多个GPU之间的数据同步,是的训练过程中的梯度汇聚、参数同步等操作变得更加高效。在使用多机多卡时,NCCL采用环形策略来组织GPU之间的通信。需要根据硬件拓扑手动优化环路的设置,以避免潜在的通信瓶颈。
2025-08-31 01:06:12
1000
原创 [代码实现] 分布式训练/推理模型时,提前加载模型参数到缓存中,减少I/O延迟、加速文件访问
当跑模型加载权重A时,将A的路径给prefetch()函数即可:prefetch(A_pth);
2025-08-23 10:10:39
306
原创 A100报错信息:Can‘t find nvmlDeviceGetNvLinkRemoteDeviceType: /lib64/libnvidia-ml.so.1: undefined symbol
看到libnvidia-ml.so,以为是环境出问题,排查了一圈...发现是爆显存了,降低显存占用就可以了。
2025-08-23 10:01:13
161
原创 DeepSpeed训练报错:RuntimeError: Error building extension ‘cpu_adam’ 及四种可能原因汇总
4. gcc版本太低,需将conda环境中的gcc版本进行升级;该报错较为复杂,经过查阅和实践后,认为和以下。
2025-08-22 01:21:57
359
原创 RoPE, 2D RoPE, 3D RoPE和复数
4)理解:通过对query和key向量进行上述复数旋转操作,使得模型能够捕捉到相对位置信息。,所以经过旋转后的query和key向量的内积包含了相对位置的信息。旋转位置编码是一种用于Transformer架构中的位置编码方法,几何意义:两次旋转的效果等于一次旋转。1)对于输入序列的每个位置的嵌入向量。3)旋转位置:对于每个位置。即实现对向量的旋转操作。
2025-08-21 11:17:23
857
原创 手把手实践-图像/视频语义分割 (Easy-VideoSegment)
在本项目中,使用了Segment and Tracking Anything论文中的算法和代码,通过我们提供的推理脚本,可以非常容易地对图像和视频中的内容进行语义分割。
2025-04-29 11:26:04
1226
原创 手把手实践-VQ-GAN推理+训练全流程 (Easy_VQGAN)
由于VQ-GAN出色的效果和经典设计,其单独的重建效果依旧可能会被应用到现有框架和方案中。本项目主要针对其重建效果(Reconstruction)进行推理和训练的流程梳理并提供可直接使用的训练、推理版本。
2025-04-18 16:35:46
1388
5
原创 Linux安装detectron2库
Detectron2 是Facebook AI Research 开源的计算机视觉库,它是基于PyTorch 框架构建的。Detectron2 提供了一系列丰富的功能和灵活的组件,用于实现图像和视频中的目标检测、实例分割、关键点检测等任务。
2025-04-14 14:42:16
582
原创 如何仅在conda中更新gcc版本
由于在使用deepspeed时产生报错:“DeepSpeedCPUAdam" object has no attribute "ds_opt_adam",报错原因是gcc版本过低。因此需要对gcc版本进行升级。1. 利用conda安装新版gcc。3. 查看gcc 版本。
2025-03-17 09:19:32
890
原创 使用DWPose提取姿态点——对应关节
使用DWPose提取人物姿态点时,会返回一个candidates列表,长度为18,分别记录18个人体的部位点坐标。
2025-03-14 21:22:09
1227
原创 torch.load() don‘t know how to restore data location of torch.storage.UntypedStorage
使用torch.load(model_path)时报错如上。在后面加上map_location="cuda"
2025-01-17 09:45:59
377
原创 Torch.cuda相关函数
在 PyTorch 中,可以通过 torch.cuda.max_memory_allocated() 和 torch.cuda.max_memory_cached() 等函数获取 GPU 内存的最大使用情况。具体来说,它会清除从上次调用此函数以来的所有 CUDA 内存统计信息,包括 GPU 上分配的内存、已释放的内存、内存碎片等。这个函数并不会释放正在使用中的内存或减少当前 PyTorch 程序中的内存占用,而是清理那些 PyTorch 内部缓存中暂时未使用的内存。
2025-01-16 16:35:05
652
原创 初识具身智能
具身智能最早出现在图灵1950年的论文Computing Machinery and Intelligence中,论文中探讨了人工智能发展的两种路径:一条路是聚焦抽象计算(比如下棋)所需的智能,而另一条路则是为机器配备最好的传感器和执行器,使其可以与人类交流、向婴儿一样进行学习。这两条道路逐渐演变成了非具身和具身智能。例如“切菜”这一行为,只有智能体身临其境的感知切菜中的力阻尼和菜的状态变化,才能真正理解“切菜“的概念,只依靠观察人切菜的动作来预测行为标签,或许永远无法理解”切”的真正含义。
2024-12-31 15:27:16
418
原创 xxxPipeline.from_pretrained(model_path)加载自定义路径下的模型结构
例如:在diffusers库中有model_A.py,其中包含模型A_function(),为了改动模型A的结构,一般会把该模型移至本地,从本地加载;而且许多子模块都来自于各种python库,例如transformers或者diffusers,当我们在本地重写了相关模型的结构(即import本地文件中的函数,而不是库中的),并且进行微调后,xxx.Pipeline.from_pretrained并不会加载我们本地的模型结构,依旧是从库中调用。
2024-12-31 15:22:34
1282
原创 使用Qwen2-VL模型批量标注图像内容(图像理解)
图像存放文件夹:/home/user/data/images_need_processing,图像命名,从00000-05000.jpg,共5000张图像;该代码中,将所有图像的caption存入txt文件中,为了方便索引,使用图像名称+“#####”+描述的形式进行存储;Qwen2-VL模型可以以问答的形式得到图像的标注内容,以下记录流程以及数据的后处理过程。权重保存地址:/home/user/models/Qwen2-VL-7B-Instruct。
2024-12-24 17:25:26
2428
3
原创 ACM投稿,Rebuttal无法去掉标题Title
注:如果修改/替换了文件后还是无法解决,应该是有其他的cls文件存在,另外单独开一个rebuttal project即可。问题:去掉\maketitle后,格式会变成单栏排版;只删除\title顶部则会有两行的留白;解决:注释掉acmart.cls文件中的2402、2428、2453、2541行;链接:https://pan.quark.cn/s/de4bbb539228。需求:去除title;
2024-06-18 09:31:09
641
原创 使用Python和PIL将RGB转换为三通道灰度图
将彩色图像转换为多通道的灰度图意味着保持图像数据的形状不变,但将每个像素的彩色表示转换为灰度值。通常灰度图像是单通道的,但如果想保持原图的三通道结构,可以用相同的灰度值填充每个通道。彩色图像通常以RGB(红、绿、蓝)格式存储,而将RGB转换为灰度值的一个常见方法是使用线性加权方法,这种方法考虑人眼对不同颜色的敏感度。灰度 = 0.2989 * R + 0.5870 * G + 0.1140 * B。使用这个公式,然后将计算出的灰度值复制到三个通道,以保持图像的多通道结构。
2024-03-22 10:09:51
1291
原创 在torch包导入前import decord导致程序卡住
这两个包的导入顺序有要求,decord需要在torch后面,不然会导致程序卡住,无法运行。常用的视频解析包:decord。常用的深度学习包:torch。
2024-01-11 09:51:45
997
1
原创 Crowd Counting-Test 获取density map及counting number
Crowd counting Test get density map and counting number.
2022-07-06 21:35:15
407
原创 【阿里网盘】深度学习与Pytorch视频教程
我在使用不限速「阿里云盘」,赠送你 500GB 快来试试吧 ------------点此链接领取福利:https://pages.aliyundrive.com/mobile-page/web/beinvited.html?code=82530df点上面这个链接注册阿里网盘(网速很快哦),可以直接得500G(我也可以得500G)之后私聊我分享《深度学习与Pytorch视频教程》全套...
2021-11-04 15:09:38
1223
原创 批量 重命名文件夹中的图像并调整大小
图像处理任务或者日常生活中常用的一个操作:对文件夹中的图像进行批量重命名,并调整文件夹中图像的大小:import osimport cv2def rename(): image_floder="./image_floder/" number = 0 files = os.listdir(image_floder) for file in files: print(image_floder+file+" Change to --> "+image_floder+str(num
2021-10-05 10:21:56
329
原创 LaTex中的绝对值符号
在使用LaTex时发现的一个问题,目标公式如下:其中需要用到绝对值,查了一下,大多数教程中对绝对值的表述为:\left| C_{2} \right|即:用\left和\right控制左右两侧的竖杠,但是编译器会报错:Missing delimiter (. inserted). \left| C_{2} \right|因此这样来使用绝对值:\lvert 和\rvert\lvert C_{2} \rvert...
2021-08-27 10:47:24
114450
9
原创 对于两级目录下的文件进行重命名
在我们平时处理文件(图像)时,往往需要对于二级目录下的文件进行重命名,其形式如下:files | |---------dir1 | |--------------aaa.jpg --------------bbb.jpg | |---------dir2 | |--------------ccc.jpg ...
2021-05-07 16:43:13
1244
3
原创 根据图像的明亮度将图像进行分类
存在一个文件夹,其中放着若干图像,现在想对这些图像,根据其明亮程度进行分类,分为10类(0-9),将图像自动移动到对应的类别中;其中涉及:1)读取图像的Y-U-V值,其中Y值代表图像的亮度;2)python中的文件读写操作;3)使用shutil进行文件的移动;# 这部分的代码可以参考用于文件的移动;可以处理其他任务;以下是代码部分:import osimport sysimport cv2import shutildef getTheBright(path): """
2021-05-07 16:32:28
857
原创 自己制作crowd counting数据集
Crowd counting的数据集包括两部分:图像部分和标签部分标签部分主要包括每个人头的坐标点:(x, y);常见的标签格式例如:ShanghaiTech数据集中的格式,用mat文件存储每个人头的坐标点,一张图像对应一个mat文件;当我们自己制作数据集时,需要经历以下几个步骤:1)拍摄图像或者视频;视频需要切分成帧;2)在图像上进行标点,标点的同时会记录下坐标点;3)根据这些坐标点生成每张图像对应的.mat文件;4)在训练时,将mat文件中的坐标转换为density .
2021-05-06 18:16:16
2980
28
原创 crowd counting 常用数据集 百度网盘
Crowd counting 常用数据集及下载地址:包括:ShanghaiTech 数据集UCF_CC_50 数据集World 10 数据集Mall 数据集USCD 数据集百度网盘下载地址:ShanghaiTech 数据集地址:链接:https://pan.baidu.com/s/1bDy-GgYi9C_R5hUuK6iZDg 提取码:c4pvUCF_CC_50 数据集地址:链接:https://pan.baidu.com/s/1Ehohkb9Q_wc..
2021-03-08 16:48:30
2032
8
原创 crowd counting——利用高斯核函数将坐标点转换为density map
在Crowd counting领域,常用的训练方法是estimate density map,这种数据可利用高斯核函数得来,在MCNN论文中有具体过程;也可参加这篇博客:https://blog.csdn.net/zxs0222/article/details/107900465存储density map的文件目前有两种:.h5文件和.cvs文件,而数据集中常见的是.mat文件,其中记录着所有人头的中心坐标点。利用.mat生成.h5的过程可参见这篇博客:https://blog.csdn.net
2021-03-08 16:39:55
1848
8
原创 Pytorch中的VGG模型
import torch.nn as nnimport torchfrom torch.nn import functional as Ffrom torchvision import modelsclass VGGModel(nn.Module): def __init__(self): super(VGGModel, self).__init__() self.VGG_feat = [64, 64, 'M', 128, 128, 'M', 256, 2.
2021-01-07 10:28:37
629
原创 将文件夹中的图像根据明亮等级分类
需求:不同的图像有不同的明亮等级,现有文件夹a,要将a中的图像(若干张)根据图像的明亮等级分为0-10,且自动分配到不同的文件夹中;如下图所示,图1为过度黑暗场景,图2为明亮场景;主要工作:将RGB到YUV空间的变化,计算Y值,并将Y值归一化,根据得到的等级进行分类;文件目录:illumination_test_images文件夹:存放需要分类的图像;illumination-level.txt:用来存放每张图像的明亮等级;illumination-test.py:主要执
2020-12-22 14:12:53
525
原创 论文阅读--Ambient Sound Helps: Audiovisual Crowd Counting in Extreme Conditions
先占个坑,正在研究;
2020-12-14 19:57:47
256
2
原创 期刊模板-如何去除左下角的横线
如图:这个横线无法被选中,如何删去这个横线?这是因为页面中插入了脚注;解决方法:光标定位于横线下方的回车处,右击,“定位至脚注”,将脚注删除,即可。
2020-12-02 16:43:50
5367
原创 Latex 将(Figure : 或者Table : )变为 (Figure . 或者 Table .)
一、只将冒号变为dot:1、添加\usepackage{caption}2、在\begin{document}加一句:\captionsetup{labelformat=default,labelsep=period}参数控制:%space去掉点%period加点%不加space、period这两个就是冒号二、深度定制:例如可将Figure 变为 Fig 等:1、添加\usepackage{caption}2、在\begin{document}加:\captio.
2020-11-30 16:10:08
8145
mysql-8.0zip安装包
2018-11-18
VALSI 2020.rar
2020-11-17
cifar数据集包括其TfRecord格式文件
2020-05-28
redis-windows
2018-12-03
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅