深度学习
文章平均质量分 53
zhuikefeng
人工智能爱好者
展开
-
torch.compile用法
torch.compile 通过 JIT 将 PyTorch 代码编译成优化的内核,使 PyTorch 代码运行得更快。加速主要来自减少了 Python 开销和 GPU 读/写,因此观察到的加速可能因模型架构和批量大小等因素而异。例如,如果一个模型的架构很简单并且数据量很大,那么瓶颈将是 GPU 计算并且观察到的加速可能不那么显着。要求torch>2.0,还需要安装torchtriton。原创 2024-02-21 20:14:26 · 3746 阅读 · 0 评论 -
深度学习知识
在 While 处判断需要继续生成,在 Attention 中计算出token对应的 CacheKV 信息存储下来,并拼接上所有的历史 CacheKV 信息进行计算,最后采样出来下一个 token。(CacheKV 实际上记录的是 Transformer 中 Attention 模块中 Key 和 Value 的值),在计算完 logits 之后会接一个Sampling 采样模块,采样出来第一个生成的 token,并将这个 token 和 CacheKV 作为 generation阶段的输入,原创 2024-01-26 15:41:27 · 998 阅读 · 0 评论 -
BeamSearch算法原理及代码解析
1.算法原理beam search有一个超参数beam_size,设为 k 。第一个时间步长,选取当前条件概率最大的 k 个词,当做候选输出序列的第一个词。之后的每个时间步长,基于上个步长的输出序列,挑选出所有组合中条件概率最大的 k 个,作为该时间步长下的候选输出序列。始终保持 k 个候选。最后从k 个候选中挑出最优的。2.中心思想假设有n句话,每句话的长度为T。encoder的输出shape为(n, T, hidden_dim),扩展成(n*beam_size, T, hidden_dim)原创 2022-04-07 19:52:51 · 3355 阅读 · 1 评论 -
MMdetection的Proposal原理和代码解析
一、算法原理接受N级score,bbox_pred,anchor和image_shape作为输入,通过anchor和框的偏移(bbox_pred)得到proposal,然后对这些proposal做NMS,最后选出前num个。二、执行步骤将每级score,bbox_pred,anchor按照score从大到小排序,并选择前num_pre个(一般为1000),共N*num_pre个。 通过anchor和框的偏移(bbox_pred)得到proposal 去除框大小为负数的框,并且对于每级的pro原创 2022-02-25 16:38:17 · 3698 阅读 · 0 评论 -
NMS源码解析
一、IOU的概念二、NMS的算法原理 选取该类box中scores最大的一个,记为box_best,并保留它 计算box_best与其余的box的IOU 如果其IOU>threshold了,就舍弃这个box(因为可能这两个box表示同一目标,保留分数高的哪一个) 从最后剩余的boxes中,再找出最大scores的哪一个,如此循环往复,直到没有box为止 三、源码解析# ---------------------------# 非极大值抑制(N..原创 2021-12-14 20:55:36 · 4561 阅读 · 0 评论 -
RoiAlign源码解析
/** 参数解释* bottom_data:输入的特征图数据,shape是(n,c,h,w)* bottom_rois:输入的roi数据,shape是(num_rois,5),第一维表示共有多少个rois,第二维是[batch_index,x1,y1,x2,y2],第一个值表示rois所在的batch_id,后四个是rois所在原图的坐标值,可以根据spatial_scale对应到特征图上* nthreads:等于roipooling后输出的size,即num_rois*channels*pool.原创 2021-12-14 17:44:40 · 2587 阅读 · 0 评论 -
《GhostNet: More Features from Cheap Operations》论文解读
一、提出背景在嵌入式设备上部署神经网络很困难,因为其有限的内存和计算资源。常规的CNN网络提取到的特征图有很多冗余信息。算法原理1.Ghost module常规的卷积公式:,其中是卷积操作,是输出的特征图,h‘是输出的高,w’是输出的宽,n是输出维度,即卷积核的数量。是卷积核,c是通道数,k是卷积核的高和宽,n是输出维度。整个卷积操作的FLOPs是:,n和c往往很大。普通的conv操作如上图a,Ghost module对次进行了改进,第一步是使用更少的卷积核生成输出...原创 2020-07-24 17:40:11 · 790 阅读 · 0 评论 -
mask-rcnn的算法原理解析
mask-rcnn应用的任务是实例分割,和目标检测,语义分割有些许差别。目标检测的任务是在检测到的物体周围用框框起来,语义分割和实例分割都是描绘出检测物体的轮廓(边缘),但是实例分割比语义分割更进一步是为不同的物体标注不同的颜色和分类,而语义分割只描绘出轮廓,不进行物体的区分。一、改进之处mask-rcnn使用的主体框架与faster-rcnn相同,但是有几点改进:1.使用ROIAli...原创 2019-08-27 17:19:45 · 2631 阅读 · 0 评论 -
基于神经网络的图像风格迁移(二)
之前的那篇博文基于神经网络的图像风格迁移(一)讲述的是Gates论文“Image Style Transfer Using Convolutional Neural Networks”。这篇论文虽然有着极其开创的作用,但是也有一些局限之处,最大的缺点就是必须要实时训练,这样耗时比较长,笔者在GTX 1080Ti双卡上大概需要3min。这样是无法移植到手机或者是网络,这些对实时要求比较高的设...原创 2018-04-25 13:55:29 · 2088 阅读 · 0 评论 -
基于神经网络的图像风格迁移(一)
图像的风格迁移始于2015年Gates的论文“Image Style Transfer Using Convolutional Neural Networks”,所做的工作很好描述,就是由一张内容图片和一张风格图片进行融合之后,得到经风格渲染之后的合成图片。示例如下 对于人来说,可以很轻易的分辨出不同风格的图片,但是如何让计算机理解什么是风格是这个项目的难点,下面详细解析项目的原理。...原创 2018-04-25 11:20:07 · 10291 阅读 · 3 评论
分享