深度学习
文章平均质量分 88
深度学习
瞻邈
老菜鸟一个。
展开
-
Text2Street:犀利的街景生成神器,车道拓扑、目标布局、天气条件全都有!
文本到图像生成,作为计算机视觉的一个重要任务,旨在仅基于文本描述生成连贯的图像。近年来,针对常见场景(如人物和目标)的文本到图像生成已经付出了很多努力。特别是随着扩散模型的出现,取得了显著进展。然而,在专业领域生成图像同样具有重要价值,包括自动驾驶、医学图像分析、机器人感知等。对于街景的文本到图像生成在自动驾驶感知和地图构建的数据生成方面具有特殊重要性,但目前仍相对未被充分探索。街景文本到图像生成作为一个尚未充分开发的任务,面临着几个严峻的挑战,可以分为三个主要方面。原创 2024-06-17 13:27:27 · 670 阅读 · 0 评论 -
DriveWorld:一个预训练模型大幅提升检测+地图+跟踪+运动预测+Occ多个任务性能
以视觉为中心的自动驾驶技术近期因其较低的成本而引起了广泛关注,而预训练对于提取通用表示至关重要。然而,当前的以视觉为中心的预训练通常依赖于2D或3D预训练任务,忽视了自动驾驶作为4D场景理解任务的时序特征。这里通过引入一个基于世界模型的自动驾驶4D表示学习框架“DriveWorld”来解决这一挑战,该框架能够从多摄像头驾驶视频中以时空方式进行预训练。原创 2024-06-11 12:50:16 · 1101 阅读 · 0 评论 -
FreeReg运行笔记
下载MinkowskiEngine安装依赖安装MinkowskiEngine在终端中开一个python,或者把代码写为脚本记录MiDaS下载的地址。原创 2024-06-06 12:40:27 · 330 阅读 · 0 评论 -
Point-to-Voxel Knowledge Distillation for LiDAR Semantic Segmentation论文阅读
很容易注意到网络中的四个箭头,这4个箭头就代表着本文最重要的四个损失函数,首先看后面的两个损失,分别对应着体素和点的输出损失(KL散度),前面两个箭头代表着基于超体素而生成的超体素内部点亲和度和体素亲和度的2范数损失。第二个模块是体素化模块;具体的实现方式为将原有的3D backbone网络的每一层进行裁剪,对每一层只保留原有通道数的一半,通过自监督蒸馏学习的方式,使得裁剪后的小模型依然能够达到原有的模型效果,提升模型的运行速度,更好地满足例如自动驾驶车辆的硬件限制。是指包含小样本的体素数量。原创 2024-05-17 20:12:31 · 1914 阅读 · 1 评论 -
RoadBEV:鸟瞰图中的道路表面重建
本文首次在鸟瞰图中重建道路表面高程,分别提出并且分析了基于单目和双目图像的RoadBEV-mono和RoadBEV-stereo。本文揭示了BEV中单目估计和双目匹配与透视图中的机制相同,但是可以通过缩小搜索范围和直接在高程方向上挖掘特征来改进。在现实世界数据集上进行的全面实验验证了所提出的BEV体积、估计头和参数设置的可行性和优越性。对于单目相机,BEV的重建性能比透视图的重建性能提高了50%。同时,在BEV中,使用双目相机的性能是使用单目相机的三倍。原创 2024-04-22 09:14:13 · 1096 阅读 · 0 评论 -
VectorMap论文阅读
自动驾驶系统需要对周围环境具有很好的理解,包括动态物体和静态高精度语义地图。现有方法通过离线手动标注来解决语义构图问题,这些方法存在严重的可扩展性问题。最近的基于学习的方法产生稠密的分割预测结果,这些预测不包含单个地图元素的实例信息,并且需要涉及许多手工设计组件的启发式后处理,以获得矢量化地图。为此,我们引入了一个端到端矢量化高精地图学习pipeline,称为 VectorMapNet。VectorMapNet 采用板载传感器观测,并预测BEV视角中一组稀疏的polyline基元,以对高精地图的几何形状进行原创 2024-04-15 09:44:10 · 1127 阅读 · 0 评论 -
BEVFormer代码阅读
正负样本的定义用到的就是匈牙利匹配算法,分类损失和类似回归损失的总损失和最小;类回归损失的计算代码如下:这里介绍一下,gt_box 的表示方式,gt_box 的维度是九维的,分别是 [xc,yc,zc,w,l,h,rot,vx,vy];而预测结果框的维度是十维的,所以要对 gt_box 的维度进行转换,转换为的维度表示为 [xc,yc,w,l,cz,h,rot.sin(),rot.cos(),vx,vy]计算类回归损失(L1 Loss)原创 2024-04-15 09:42:47 · 1058 阅读 · 2 评论 -
Sora物理悖谬的几何解释
龙年伊始,Sora横空出世,举世震惊。Sora声称“作为世界模拟的视频生成模型”,豪气干云。有人悲观预言很多传统领域可能被颠覆,其中最为岌岌可危的可能是计算机图形学,短视频和影视娱乐行业。依随OpenAI透露出更多技术细节,很多Sora生成的物理悖谬的视频流传于网络。这里笔者依据现代数学特别是整体微分几何领域的一些观点来解释目前Sora技术路线中的缺陷,希望能够抛砖引玉,为广大AI研究和工程人员拓宽思路,共同促进提高。这里主要用流形嵌入理论、灾变理论(临界态理论)、纤维丛示性类理论、热扩散方程和最优传输方程转载 2024-04-13 19:48:50 · 75 阅读 · 0 评论 -
锚框(anchor box)
目标检测算法通常会在输入图像中抽样大量的区域,然后判断这些区域中是否包含我们感兴趣的目标,并调整区域边界,从而更准确地预测目标的真实边界框(ground-truth bounding box)。不同的模型所使用的区域抽样方法可能不同。这里我们介绍其中的一种方法:以每个像素为中心,生成多个缩放比和宽高比不同的边界框,这些边界框被称为锚框(anchor box)。原创 2024-04-12 11:25:43 · 1167 阅读 · 0 评论 -
BEVFormer v2论文阅读
鸟瞰识别模型吸引了人们对自动驾驶的兴趣,因为它们可以自然地将多个传感器的部分原始观测集成到一个统一的整体3D输出空间中。一个典型的BEV模型建立在一个图像主干上,然后是一个视图转换模块,该模块将每个特定的图像特征提升为BEV特征,然后由BEV特征编码器和一些特定任务的头进行处理。虽然在设计视图转换器上投入了很多心血,和不断增加的下游任务并入新的识别框架中,对BEV模型中的图像主干的研究受到的关注要少得多。自动驾驶作为一个前沿、高要求的领域,将现代影像骨干内引到自动驾驶中是顺理成章的事情。原创 2024-03-23 11:09:20 · 1250 阅读 · 0 评论 -
LSS(Lift, Splat, Shoot)论文阅读
计算机视觉算法通常将图像作为输入,并输出与坐标系无关的预测——例如分类——或与输入图像在同一坐标系中的预测——例如目标检测、语义分割或全景分割。这种模式与开箱即用的自动驾驶中的感知算法模式不匹配。在自动驾驶中,将多个传感器作为输入,每个传感器具有不同的坐标系,感知模型最终的任务是在新的坐标系——自车(ego car)坐标系——中产生预测结果,以供下游路径规划器(Planner)使用,如图.2所示。有许多简单、实用的策略可以将单图像范式(paradigm)扩展到多视图场景。原创 2024-03-17 20:14:03 · 1022 阅读 · 0 评论 -
BEVFormer代码运行笔记
注意:根据你的cuda版本选择相应的版本,并注意它们之间的版本依赖关系。把Mini的压缩包都放在同一个目录,例如名为v1.0-mini,然后解压,解压的时候会有一些目录合并。把全量的压缩包都放在同一个目录,例如名为v1.0-full,然后解压,解压的时候会有一些目录合并。把v1.0-mini改名为v1.0-trainval,这样得到的目录是。需要下载TrainVal, Test和can_bus,得到如下文件。需要下载Mini, Test和can_bus,得到如下文件。使用conda创建环境。原创 2024-03-13 13:16:36 · 1202 阅读 · 0 评论 -
BEVFusion论文阅读
融合激光雷达和相机的信息已经变成了3D目标检测的一个标准,当前的方法依赖于激光雷达传感器的点云作为查询,以利用图像空间的特征。然而,人们发现,这种基本假设使得当前的融合框架无法在发生 LiDAR 故障时做出任何预测,无论是轻微还是严重。这从根本上限制了实际场景下的部署能力。相比之下,在BEVFusion框架中,其相机流不依赖于 LiDAR 数据的输入,从而解决了以前方法的缺点。原创 2024-03-02 22:44:35 · 1021 阅读 · 0 评论 -
DETR论文阅读
传统的目标检测任务需要大量的人工先验知识,例如预定义的先验anchor,NMS后处理策略等。这些人工先验知识引入了很多人为因素,且较难处理。如果能够端到端到直接生成目标检测结果,将会使问题变得很优雅。原创 2024-03-02 21:52:07 · 1021 阅读 · 1 评论 -
BEVFormer论文阅读
强的backbone依然是涨点的关键Local-attention要不global attention的效果要更好,global attention更加耗时,性能也不太好时序信息的必要,能够有效的提高速度上的指标不建议多任务头,多任务头在3D目标检测表现ok,但是在BEV map的语义分割中性能还是较差。6. 提问Q1:其实纯视觉到底还能走多远?能不能真正的和LiDAR的效果做到一个大差不差的一个性能。原创 2024-03-01 11:39:25 · 1099 阅读 · 0 评论 -
点云检测网络PointPillar
在此之前对于不规则的稀疏的点云的做法普遍分为两派:一是把点云数据量化到一个个Voxel里,常见的有VoxelNet和SECOND , 但是这种做法比较普遍的问题是由于voxel大部分是空集所以会浪费算力(SECOND利用稀疏卷积解决了它) ,但是二者都还存在高度的信息所以还需要计算三维卷积的。一是从俯视角度将点云的数据进行处理,将高度信息通过一系列手段去除从而获得一种类似Pseudo image的方式从而去用一些经典的图像网络去处理一些任务比如,MV3D和AVOD。原创 2024-02-28 21:54:19 · 889 阅读 · 0 评论 -
稀疏卷积Sparse Convolution
使用以下稀疏图像作为输入如图所示,我们有一个5×5的3通道图像。除了P1和P2两点外,所有像素都是空,我们称像P1和P2这样的非空点为active input site。在稀疏格式中,数据列表是[[0.1,0.1,0.1], [0.2,0.2,0.2] ,索引列表是[1,2] ,[2,3] ,并且是YX顺序。在卷积过程中卷积核如下定义,每个卷积核是一个3x3矩阵。深色和浅色代表两种滤镜。有两种稀疏卷积。原创 2024-02-28 21:25:37 · 1031 阅读 · 0 评论 -
The Loss Surfaces of Multilayer Networks论文阅读
对于大规模网络,大部分局部极小值是等价的,且在测试集上性能相似;在小规模网络上发现较差的局部极小值(虽然局部极小,但损失值依然较大)的概率是非零的,而且这个概率随着网络的规模是衰减的。纠结于在训练集上找到全局极小值在实际中是毫无意义的,而且可能导致过似合。原创 2023-01-22 21:03:32 · 1468 阅读 · 0 评论 -
TVM: End-to-End Optimization Stack for Deep Learning论文阅读
要让AI芯片支持深度学习架构,要将深度学习架构等部署到芯片上就需要将深度学习架构中的这些代码编译成芯片支持的指令集,所以要从头到尾设计一套软件栈,做一套全栈的优化。所以现在的许多深度学习的架构只能在某一些厂商的GPU设备上获得加速,这种支持依赖于特定的GPU库,当未来越来越多的加速器出现时,硬件设备的厂商对于深度学习架构的支持便会变得越来越困难。原来的框架:PyTorch、Tensorflow运用于GPU加速,存在很大的局限,部署运用其他平台需要很多手动的工作原创 2023-01-21 22:21:17 · 1305 阅读 · 1 评论 -
深度学习中的20种卷积
大多数的卷积结构都是在精度-参数量-计算量这三个维度上进行不同的侧重取舍。两个矛盾:追求计算效率的卷积结构由于计算预算较低,无论是限制卷积层的深度,还是限制了卷积的宽度,不可避免地会导致性能的下降。追求精度提升的卷积结构由于其引入过多的卷积运算或其他额外的操作(如注意力),势必会增大内存或计算开销,从而影响模型的容量和整体的训练或推理速度。一个设计的原则就是我们如何在不增加额外参数量的情况下,尽可能利用有效的信息或者从降低冗余空间信息的角度出发,来提高模型的计算效率和卷积提取特征的能力。转载 2021-07-13 14:32:04 · 10265 阅读 · 5 评论 -
深度学习中的激活函数
1. 为什么需要非线性激活函数? 1.1. 为什么需要激活函数? 激活函数对模型学习、理解非常复杂和非线性的函数具有重要作用。 激活函数可以引入非线性因素。如果不使用激活函数,则输出信号仅是一个简单的线性函数。线性函数一个一级多项式,线性方程的复杂度有限,从数据中学习复杂函数映射的能力很小。没有激活函数,神经网络将无法学习和模拟其他复杂类型的数据,例如图像、视频、音频、语音等。 激活函数可以把当前特征空间通过一定的线性映射转换到另一个空间,让数据能够更好的被分类。 1.2. 为什么激活函数原创 2022-03-23 10:22:42 · 1466 阅读 · 0 评论 -
深度学习的算法实践和演进
回顾深度学习模型过去的发展历史,我们看到过去一些明显的规律和局限:更宽、更深、更大的模型持续带来效果和能力上的惊喜,但是似乎在22年走到了一个反思的节点。用VGG的100M和Megatron的530B相比,规模提升了1000~10000倍。然而,规模的边际效用降低,能耗和迭代效率都成为较大的问题。模型越来越全能,算法越来越归一。放在10年前,CV和NLP的研究员可能风马牛不相及。但是现在我发现CV,NLP,语音的SOTA模型都能用上Transformer结构,都能用上自监督训练。转载 2022-02-10 13:26:16 · 507 阅读 · 0 评论 -
深度学习资料大全
Free Online BooksDeep Learning66by Yoshua Bengio, Ian Goodfellow and Aaron Courville Neural Networks and Deep Learning42by Michael Nielsen Deep Learning27by Microsoft Research Deep Learning Tutorial23by LISA lab, University of Montreal Deep Learn...原创 2021-05-24 10:34:39 · 186 阅读 · 1 评论 -
深度学习相关文章
介绍:这个专栏是一个stanford学生做的CS183c课程的一个note,该课程是由Reid Hoffman等互联网boss级人物开设的,每节课请一位巨头公司的相关负责人来做访谈,讲述该公司是怎么scale的。介绍: 此书是斯坦福大学概率图模型大牛Daphne Koller所写,主要涉及的是贝叶斯网络和马尔科夫逻辑网络的learning和inference问题,同时又对PGM有深刻的理论解释,是学习概率图模型必看的书籍。迈克尔·I.乔丹是知名的计算机科学和统计学学者,主要研究机器学习和人工智能。原创 2024-03-14 20:42:00 · 762 阅读 · 1 评论 -
注意力机制
自下而上的无意识的注意力,称为基于显著性的注意力( SaliencyBased Attention).基于显著性的注意力是由外界刺激驱动的注意,不需要主动干预,也和任务无关.如果一个对象的刺激信息不同于其周围信息,一种无意识的“赢者通吃”( Winner-Take-All)或者门控( Gating)机制就可以把注意力转向这个对象.不管这些注意力是有意还是无意,大部分的人脑活动都需要依赖注意力,比如记忆信息、阅读或思考等.。那么在预测某个词yt时,任何输入单词对于它的重要性都是一样的,也就是注意力分散了。原创 2023-01-15 16:49:12 · 6321 阅读 · 0 评论 -
深度学习中的Batch Size
Batch的选择,首先决定的是下降的方向。如果数据集比较小,可采用全数据集的形式,好处是:由全数据集确定的方向能够更好地代表样本总体,从而更准确地朝向极值所在的方向。由于不同权重的梯度值差别巨大,因此选取一个全局的学习率很困难。可以使用Rprop只基于梯度符号并且针对性单独更新各权值。对于更大的数据集,假如采用全数据集的形式,坏处是:随着数据集的海量增长和内存限制,一次性载入所有的数据进来变得越来越不可行。以Rprop的方式迭代,会由于各个Batch。原创 2022-03-23 13:28:30 · 264 阅读 · 1 评论 -
深度学习相关网址
本文整理了一系列与深度学习相关的重要网址,涵盖了模型资源、学习资料、研究动态等多个方面。这些网址是深度学习爱好者和研究者的宝藏,能帮助大家获取最新的信息、提升技能、深入探索前沿领域。原创 2023-04-09 18:32:42 · 564 阅读 · 0 评论 -
深度学习常用的激活函数
那就让我们来整理一下深度学习中离不开的激活函数!激活函数(Activation Function)是一种添加到人工神经网络中的函数,旨在帮助网络学习数据中的复杂模式。类似于人类大脑中基于神经元的模型,激活函数最终决定了要发射给下一个神经元的内容。在人工神经网络中,一个节点的激活函数定义了该节点在给定的输入或输入集合下的输出。标准的计算机芯片电路可以看作是根据输入得到开(1)或关(0)输出的数字电路激活函数。因此,激活函数是确定神经网络输出的数学方程式,本文概述了深度学习中常见的十种激活函数...原创 2021-06-17 13:51:50 · 827 阅读 · 1 评论 -
深度学习中的Droupout
Dropout的作用是防止过拟合。Dropout在训练模型中是如何实现的呢?Dropout的做法是在训练过程中按一定比例(比例参数可设置)随机忽略或屏蔽一些神经元。这些神经元被随机“抛弃”,也就是说它们在正向传播过程中对于下游神经元的贡献效果暂时消失了,反向传播时该神经元也不会有任何权重的更新。所以,通过传播过程,dropout将产生和L2范数相同的收缩权重的效果。原创 2024-02-06 00:30:43 · 1414 阅读 · 0 评论 -
PyTorch中DistributedDataParallel使用笔记
在pytorch中的多GPU训练一般有2种DataParallel和DistributedDataParallel,DataParallel是最简单的的单机多卡实现,但是它使用多线程模型,并不能够在多机多卡的环境下使用,所以本文将介绍DistributedDataParallel,DDP 基于使用多进程而不是使用多线程的DP,并且存在GIL争用问题,并且可以扩充到多机多卡的环境,所以它是分布式多GPU训练的首选。原创 2023-09-22 13:48:24 · 503 阅读 · 0 评论 -
PyTorch使用问题汇总
在pytorch的老版本中该类叫RandomReSizedCrop,在新版本中叫RandomResizedCrop,二者只差一个字母大小写,不易发现。原创 2023-08-15 14:00:44 · 232 阅读 · 0 评论 -
On the Spectral Bias of Neural Networks论文阅读
众所周知,过度参数化的深度神经网络(DNNs)是一种表达能力极强的函数,它甚至可以以100%的训练精度记忆随机数据。这就提出了一个问题,为什么他们不能轻易地对真实数据进行拟合呢。为了回答这个问题,研究人员使用傅里叶分析来研究深层网络。他们证明了具有有限权值(或训练有限步长)的深度网络天生偏向于表示输入空间上的平滑函数。具体地说,深度ReLU网络函数的特定频率分量(k)的衰减速度至少与O(k^2)一样快,宽度和深度分别以多项式和指数的方式帮助建模更高的频率。原创 2024-02-04 23:58:26 · 1511 阅读 · 3 评论