自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(96)
  • 收藏
  • 关注

原创 tensorrt-llm知识

【代码】tensorrt-llm知识。

2024-07-19 11:43:03 203

原创 Linux安装gpu驱动

下载完rpm之后,运行下面的命令。,选择机器的配置和环境。

2024-06-03 11:40:06 313

原创 git知识

【代码】git知识。

2024-04-08 14:48:06 283

原创 numpy知识

【代码】numpy知识。

2024-04-03 11:30:14 202

原创 pandas知识

【代码】pandas知识。

2024-04-03 10:23:28 260

原创 esp8266调试记录

使用笔记本电脑的USB接口为NodeMCU开发板供电,你需要确保电压和电流在安全范围内。虽然NodeMCU的输入输出电压限制为3.3V,但是大多数开发板都内置了电压调节器,可以从5V的USB电源降压到3.3V。因此,通常情况下,可以直接使用笔记本电脑的USB接口为NodeMCU开发板供电。

2024-03-17 14:55:44 410

原创 Docker知识

【代码】Docker知识。

2024-03-11 15:25:12 360

原创 torch.compile用法

torch.compile 通过 JIT 将 PyTorch 代码编译成优化的内核,使 PyTorch 代码运行得更快。加速主要来自减少了 Python 开销和 GPU 读/写,因此观察到的加速可能因模型架构和批量大小等因素而异。例如,如果一个模型的架构很简单并且数据量很大,那么瓶颈将是 GPU 计算并且观察到的加速可能不那么显着。要求torch>2.0,还需要安装torchtriton。

2024-02-21 20:14:26 2151

原创 深度学习知识

在 While 处判断需要继续生成,在 Attention 中计算出token对应的 CacheKV 信息存储下来,并拼接上所有的历史 CacheKV 信息进行计算,最后采样出来下一个 token。(CacheKV 实际上记录的是 Transformer 中 Attention 模块中 Key 和 Value 的值),在计算完 logits 之后会接一个Sampling 采样模块,采样出来第一个生成的 token,并将这个 token 和 CacheKV 作为 generation阶段的输入,

2024-01-26 15:41:27 940

原创 大模型学习

其中b是batch,s是序列长度,a是注意力头数,l是transformer层数,h指隐藏层维度。优化器状态占用的显存大小也是一样,与优化器类型有关,与模型参数量有关,但与输入数据的大小无关。计算量和参数量的关系,近似认为,在一次前向传递中,对于每个token,每个模型参数,需要进行2次浮点数运算,即一次乘法法运算和一次加法运算。,b是batch,l是transformer层数,h指隐藏层维度,s是输入序列长度,n是输出序列长度,4=2*2,k和v的cache,每个cache fp16存储,占用2B。

2024-01-08 16:39:47 2726

原创 Linux知识

【代码】Linux知识。

2024-01-05 11:21:33 515

原创 python学习

【代码】python学习。

2023-12-25 09:53:03 381

原创 CMakeLists中下载github仓库代码和设置代理

在编译大型项目时,往往会遇到在CMakeLists.txt文件中下载github依赖仓库的现象。但是因为墙的原因,直接下载不了代码导致编译报错。可以通过设置代理解决。

2023-12-07 11:36:19 1605

原创 HuggingFace的transfomers库

可以通过print(enc)看到,enc是GPT2TokenizerFast类型,搜索类型的定义,在python安装包的transformers/models/gpt2/tokenization_gpt2_fast.py。我获取了opt类型的tokenizer,那么enc是什么类型呢?

2023-11-08 10:10:12 410

原创 python文档链接

python与并行计算

2023-11-02 17:37:20 127

原创 requests教程

【代码】requests教程。

2023-10-27 09:59:01 89

原创 fastapi教程

一个现代Python网络框架,可用于构建REST API。与知名的API标准完全兼容,即OpenAPI和JSON模式。FastAPI没有内置任何服务器应用程序。为了运行FastAPI应用程序,你需要一个名为的ASGI(Asynchronous Server Gateway Interface)服务器。符合 WSGI (Web Server Gateway Interface – 较早的标准)的Web服务器不适合 asyncio 应用。

2023-10-26 15:28:06 369

原创 asyncio教程

asyncio是一种使用单线程单进程的的方式实现并发的工具。asyncio提供的框架以事件循环(event loop)为中心,程序开启一个无限的循环,程序会把一些函数注册到事件循环上。当满足事件发生的时候,调用相应的协程函数。

2023-10-26 14:59:31 756

原创 实现http流式输出的最小实践

【代码】实现http流式输出的最小实践。

2023-10-26 11:44:16 885

原创 如何下载huggingface的模型和权重

【代码】如何下载huggingface的模型和权重。

2023-09-26 15:47:13 1980

原创 cuda知识

或者dpkg -l | grep cudnn。查看tensorrt版本:dpkg -l | grep TensorRT。查看cuda版本:`nvcc` --version,nvcc -V。

2023-09-21 17:21:22 1236

原创 tensorrt的安装和使用

提前安装好和,登录 NVIDIA 官方网站下载和主机 CUDA 版本适配的 TensorRT 压缩包即可。以 CUDA 版本是 10.2 为例,选择适配 CUDA 10.2 的。

2023-09-21 11:52:50 2217

原创 cuda文档链接

tensorrt docker release note

2023-09-21 11:15:25 129

原创 mac使用指南

新公司给配备了mac,可惜土鳖的我不会用,所以特地写了一篇文章记录学习mac的过程。

2023-09-19 16:10:23 476

原创 Linux源码安装boost

如选择1.60.0。

2023-06-13 11:00:37 235

原创 arm机器的相关指令与配置

【代码】arm机器的相关指令与配置。

2023-06-07 10:56:11 169

原创 torch与torchvision和torchaudio的对应关系

【代码】torch与torchvision和torchaudio的对应关系。

2023-04-24 15:28:20 779

原创 Nsight System的安装和使用

需要登录。

2023-04-06 15:00:33 7304 1

原创 下载不了代码仓库的代码怎么办?

ping: unknown host

2023-03-27 11:40:01 138

原创 linux安装和使用docker

centos安装和使用docker

2023-03-22 14:40:26 81

原创 Linux安装cmake

centos安装cmake

2023-03-20 17:23:38 744

原创 centos7源码安装gcc5.4

gcc安装

2023-03-20 15:00:08 652

原创 apt源,yum源,pip源和conda源的替换

源的替换

2023-03-17 10:33:07 380

原创 强大的vim:vimplus

强大的vim:vimplus

2023-03-10 14:09:55 194

原创 好用的shell:zsh

好用的shell:zsh。

2023-03-10 11:25:07 105

原创 BeamSearch算法原理及代码解析

1.算法原理beam search有一个超参数beam_size,设为 k 。第一个时间步长,选取当前条件概率最大的 k 个词,当做候选输出序列的第一个词。之后的每个时间步长,基于上个步长的输出序列,挑选出所有组合中条件概率最大的 k 个,作为该时间步长下的候选输出序列。始终保持 k 个候选。最后从k 个候选中挑出最优的。2.中心思想假设有n句话,每句话的长度为T。encoder的输出shape为(n, T, hidden_dim),扩展成(n*beam_size, T, hidden_dim)

2022-04-07 19:52:51 3136 1

原创 MMdetection的Proposal原理和代码解析

一、算法原理接受N级score,bbox_pred,anchor和image_shape作为输入,通过anchor和框的偏移(bbox_pred)得到proposal,然后对这些proposal做NMS,最后选出前num个。二、执行步骤将每级score,bbox_pred,anchor按照score从大到小排序,并选择前num_pre个(一般为1000),共N*num_pre个。 通过anchor和框的偏移(bbox_pred)得到proposal 去除框大小为负数的框,并且对于每级的pro

2022-02-25 16:38:17 3593

原创 NMS源码解析

一、IOU的概念二、NMS的算法原理 选取该类box中scores最大的一个,记为box_best,并保留它 计算box_best与其余的box的IOU 如果其IOU>threshold了,就舍弃这个box(因为可能这两个box表示同一目标,保留分数高的哪一个) 从最后剩余的boxes中,再找出最大scores的哪一个,如此循环往复,直到没有box为止 三、源码解析# ---------------------------# 非极大值抑制(N..

2021-12-14 20:55:36 4479

原创 RoiAlign源码解析

/** 参数解释* bottom_data:输入的特征图数据,shape是(n,c,h,w)* bottom_rois:输入的roi数据,shape是(num_rois,5),第一维表示共有多少个rois,第二维是[batch_index,x1,y1,x2,y2],第一个值表示rois所在的batch_id,后四个是rois所在原图的坐标值,可以根据spatial_scale对应到特征图上* nthreads:等于roipooling后输出的size,即num_rois*channels*pool.

2021-12-14 17:44:40 2502

原创 Markdown学习笔记

一级标题二级标题三级标题四级标题文本正常加粗删除线标记倾斜列表无序列表无序列表无序列表(-,*, +都是无序列表)有序列表有序列表(通过1.还有空格表示)

2020-11-16 14:38:55 147

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除