- 博客(147)
- 资源 (9)
- 收藏
- 关注
原创 【论文阅读】Far3D: Expanding the Horizon for Surround-view 3D Object Detection
论文: https://arxiv.org/pdf/2308.09616代码: https://github.com/megvii-research/Far3DA: 这篇论文提出了一个名为Far3D的新型3D对象检测框架,旨在解决从环视图像中进行长距离3D对象检测的挑战。尽管现有的基于环视图像的3D对象检测方法在成本低廉和应用广泛方面取得了显著进展,但它们主要集中在近程感知范围,而对远程检测的探索较少。直接将现有方法扩展到长距离检测面临如下挑战:计算成本高:随着检测范围的扩大,需要处理的数据量和计算量显著
2024-08-13 11:58:58 1009
原创 【论文阅读】Exploring Object-Centric Temporal Modeling for Efficient Multi-View 3D Object Detection
query 级别的时许融合
2024-08-06 13:33:28 597
原创 【论文阅读】PETRv2: A Unified Framework for 3D Perception from Multi-Camera Images
引入任务特定的查询(task-specific queries),例如车道检测的3D锚定车道和BEV分割的seg查询,这些查询在不同的空间中初始化,并与transformer解码器中的多视图图像特征进行交互。通过3D坐标对齐(3D Coordinates Alignment)实现不同帧之间的时间对齐,将上一帧的3D坐标转换到当前帧的坐标系中,以增强目标定位和速度估计。改进原有的3D位置嵌入(3D PE),通过FPE使3D PE依赖于输入图像数据,利用2D图像特征提供的信息(如深度)来指导查询学习。
2024-08-03 16:41:09 1042
原创 PCA和Kmean在人脸重建olivetti人脸数据集上的比较
KNN(K近邻)算法是最简单且常用的分类算法之一。它属于有监督学习算法,尽管看起来与无监督学习算法K-means相似,但两者本质上不同。那么,什么是KNN算法呢?接下来我们进行介绍。KNN的全称是K Nearest Neighbors,即K个最近的邻居。其核心思想是:在预测新样本x时,根据其在特征空间中距离最近的K个邻居的类别来判断x的类别。PCA(Principal Component Analysis),即主成分分析法,是特征降维最常用的手段之一,也是最基础的无监督降维算法。
2024-07-23 09:34:42 975
原创 基于词级ngram的词袋模型对twitter数据进行情感分析
N 格是指给定文本或语音样本中 n 个项目的连续序列。这些项目可以是音素、音节、字母、单词或碱基对,具体取决于应用。N-grams 广泛应用于计算语言学和文本分析中的各种任务,如文本预测、拼写校正、语言建模和文本分类。它们为文本挖掘和自然语言处理(NLP)提供了一种简单而有效的方法。###了解 N 符n-gram 的概念很简单:它是由 ‘n’ 个连续项组成的序列。Unigram(n=1): 单个项目或单词。Bigram(n=2): 一对连续的项目或单词。Trigram(n=3): 连续的三联项或词。
2024-07-19 19:07:20 1251
原创 llama 2 改进之 RMSNorm
通过激活函数后,其中,随着前一层的更新,层的输入分布会发生变化。论文假设LayerNorm中的重新居中不变性是可有可无的,并提出了均方根层归一化(RMSNorm)。RMSNorm根据均方根(RMS)将一层神经元的总和输入正则化,得到模型重新缩放不变性特性和隐式学习率适应能力。在本文中,假设重新缩放不变性是LayerNorm成功的原因,而不是重新定中心不变性。是增益参数,用于重新调整标准化求和输入的大小,一开始设置为 1。分别是根据原始求和输入估计的均值和方差统计量。的归一化替代值用于层激活。
2024-07-18 16:07:31 1188
原创 LLaMA 数据集
多样化数据来源:涵盖从网络抓取数据到书籍、科学论文和问答网站的数据。高效预处理:通过多种预处理技术确保数据的高质量和相关性,包括语言识别、质量过滤和重复数据删除。覆盖多语言:重点涵盖使用拉丁字母和西里尔字母的多种语言,提高模型的多语言处理能力。LLaMA 2在训练设置和模型架构上大部分继承了LLaMA 1的配置,但也进行了几项重要的改进和调整。LLaMA 2在保持LLaMA 1基础架构的同时,通过增加上下文长度和引入分组查询注意力机制,进一步提升了模型的能力。
2024-07-18 16:06:40 929
原创 LLaMA 背景
模型介绍:LLaMA是Meta开发的语言模型,旨在推动开放科学和人工智能的实践。参数范围:这些模型的参数数量从7B到65B不等,覆盖了不同规模的需求。训练数据:LLaMA模型是在数万亿个公开数据集的tokens上训练的,这使得它们具有广泛的语言理解和生成能力。LLaMA通过在大量训练数据上的优化,实现了高效的语言理解和生成能力,且在计算资源、存储和传输等方面具有显著优势,使其在实际应用中更具竞争力。
2024-07-18 13:56:16 445
原创 LLM 的储备知识
n Softmax层权值矩阵与目标语言词向量矩阵共享参数。Transformer Decoder 结构。• 掩码多头自注意神经网络。• 多头自注意神经网络。
2024-07-18 12:22:42 176
原创 【论文阅读】PETR: Position Embedding Transformation for Multi-View 3D Object Detection + 代码
在本文中,我们开发了用于多视图 3D 对象检测的位置嵌入变换(PETR)。PETR 将 3D 坐标的位置信息编码为图像特征,产生 3D 位置感知特征。对象查询可以感知 3D 位置感知特征并执行端到端对象检测。PETR 在标准 nuScenes 数据集上实现了最先进的性能(50.4% NDS 和44.1% mAP),并在基准测试中排名第一。它可以作为未来研究的简单而强大的基线。
2024-07-03 21:19:58 1154 1
原创 【论文阅读】COTR: Compact Occupancy TRansformer for Vision-based 3D Occupancy Prediction
为了解决这些问题,论文提出了一种名为Compact Occupancy TRansformer(COTR)的方法,它包括一个几何感知的占用编码器和一个语义感知的组解码器,以重建一个紧凑的3D OCC表示。总结来说,COTR通过提出紧凑的3D占用表示和语义感知的组解码器,有效地解决了3D占用预测中的几何信息丢失、计算成本高和语义可区分性差的问题。现有的3D占用表示缺乏语义可区分性,这限制了网络成功识别稀有物体的能力,这部分是由于数据集中的类别不平衡问题导致的。
2024-06-21 11:31:47 893
原创 【论文阅读】Co-Occ: Coupling Explicit Feature Fusion With Volume Rendering Regularization for Multi-Modal
论文:https://arxiv.org/pdf/2404.04561v1代码:https://github.com/Rorisis/Co-Occ?
2024-06-20 12:05:25 954
原创 【论文阅读】Occupancy-MAE: Self-supervised Pre-training Large-scale LiDAR Point Clouds
占位-MAE 的整体架构。我们首先将大尺度不规则激光雷达点云转换为体积表示,根据其与激光雷达传感器的距离随机屏蔽体素(即范围感知屏蔽策略),然后利用非对称自动编码器网络重建一般三维世界的几何占位结构。我们采用三维空间稀疏卷积 [6],以位置编码作为编码骨干。我们将二元占位分类作为前置任务,以区分体素是否包含点。预训练完成后,轻量级解码器将被丢弃,编码器将用于下游任务的骨干预热。数据流结构图GitHub里面的结构图。
2024-06-19 14:11:54 718
原创 BEV 中 multi-frame fusion 多侦融合(一)
dataroot: 数据集的根路径,类型为字符串,默认值为 ‘./project/data/nuscenes/’。是根据现有数组的形状和数据类型来创建新数组,而numpy.full()则需要手动指定形状和数据类型。获取边界框的速度信息,并将其转换为所需的格式。
2024-06-18 17:44:20 1028
原创 【论文阅读】Multi-Camera Unified Pre-Training via 3D Scene Reconstruction
问题定义:论文针对自动驾驶领域中多摄像头3D感知的问题,提出了现有算法主要依赖单目2D预训练,忽略了多摄像头系统中的空间和时间相关性。UniScene框架:提出了首个多摄像头统一预训练框架UniScene,该框架通过3D场景重建作为预训练的基础阶段,然后在下游任务上对模型进行微调。占用表示:采用占用(Occupancy)作为3D场景的通用表示,使模型能够在预训练过程中掌握周围世界的几何先验。无标签预训练:UniScene能够利用大量的未标记的图像-LiDAR对进行预训练,减少了对昂贵3D标注的依赖。
2024-06-18 13:17:55 1238
原创 LSSViewTransformer 中每个类别的意思
LSSViewTransformer 中每个类别的意思详细解释:类 定义:测试类 定义:运行测试:代码详解:create_frustum 方法生成深度轴、输入图像大小和下采样因子的网格信息。方法参数包括深度轴配置(depth_cfg),输入图像大小(input_size),和下采样比例因子(downsample)。visualize_frustum 函数定义:使用 Matplotlib 创建三维图形。从 frustum 张量中提取 x, y, d 坐标,并在三维空间中绘制这些点。设置坐标轴标
2024-06-05 11:58:31 720
原创 【mmdet问题】error: unrecognized arguments: --local-rank=0
如果直接使用github里面的给的命令进行的话,回报错。所以我们要加多一行让他认识到 local-rank。
2024-05-29 17:48:07 1022
原创 LiftSplatShoot中用于处理多视角图像数据并生成鸟瞰图(调试)
根据LSS代码中explore.py 中来显示出来图像。对于 nuscenes dataset 的数据设定。图像坐标系向ego坐标系进行坐标转化。
2024-05-22 11:45:44 218
原创 LiftSplatShoot中用于处理多视角图像数据并生成鸟瞰图
gen_dx_bx:函数用于生成网格参数。self.downsample:是图像下采样因子,用于减少计算复杂度。self.camC:是相机特征通道数。self.frustum:是由create_frustum方法创建的视锥体。CamEncode和BevEncode是两个特征编码模块。
2024-05-22 10:28:23 205
原创 COCO2017 数据集的下载方法
我们提供了下载 COCO 等数据集的脚本,你可以运行。mmdetection 下载。opendatalab 下载。下载 COCO 数据集。
2024-05-20 13:48:58 3561 3
原创 [论文阅读]TransXNet: Learning Both Global and Local Dynamics with a Dual Dynamic Token Mixer 和代码
论文想要解决的问题和模块代码分析,同时提高可以测试的方式
2024-05-07 12:38:59 1174 1
原创 [论文阅读]Adversarial Autoencoders(aae)和代码
本文提出的"对抗式自动编码器"(AAE)是一种概率自动编码器,它使用最近提出的生成对抗网络(GAN),通过将自动编码器隐藏代码向量的聚集后验与任意先验分布相匹配来执行变异推理。将聚合后验与先验相匹配可确保从先验空间的任何部分生成有意义的样本。因此,对抗式自动编码器的解码器会学习一个深度生成模型,将强加的先验映射到数据分布上。我们展示了对抗式自动编码器如何应用于半监督分类、图像风格和内容分离、无监督聚类、降维和数据可视化等领域。
2024-05-05 17:14:06 1232 2
原创 [论文阅读]DWRSeg: Rethinking Efficient Acquisition of Multi-scale Contextual Information for Real-time S
在这种方法中,多速率深度可分离卷积在特征提取中扮演更简单的角色:基于第一步提供的每个区域形式的简洁特征图,在第二步中执行简单的基于语义的形态学滤波,以提高效率。相应地,论文设计了一种新颖的扩张卷积残差(Dilation-wise Residual, DWR)模块和一种简单的反卷积残差(Simple Inverted Residual, SIR)模块,分别用于高层和低层网络,并构建了一个强大的DWR分割(DWRSeg)网络。输出特征图进入一个简单的全卷积网络(FCN)风格的解码器,最终预测由解码器生成。
2024-05-03 16:18:09 997 2
原创 如何利用open3D来生成OCC
泊松曲面重建还将在低点密度区域创建三角形,甚至外推到某些区域(请参见上面 eagle 输出的底部)。create_from_point_cloud_poisson 函数有第二个 densities 返回值,该值指示每个顶点的密度。低密度值意味着顶点仅由输入点云中的少量点支持。在下面的代码中,我们使用伪彩色可视化 3D 密度。紫色表示低密度,黄色表示高密度。open3d 效果图。open3D 可视化。
2024-04-15 12:29:07 349
原创 Distributed training error on Nuscene Dataset
当使用forkstart方法时,父进程在内存中创建自己的新副本(fork),子进程从与父进程相同的内存空间开始执行。一般来说,fork启动方法对于大多数用例来说是一个不错的选择,但重要的是要意识到它的局限性。如果您不确定使用哪种启动方法,您始终可以使用默认的spawn启动方法,这种方法更便携,但效率较低。在PyTorch中使用该模块时指定子进程的启动方法。startfork方法是基于 Unix 的系统的默认方法,通常被认为是生成子进程的最有效的启动方法。然而,启动方法也有一些限制fork。
2024-04-12 12:54:01 1086
基于vgg16进行迁移学习服装分类
2024-03-06
使用GRU进行天气变化的时间序列预测和天气时间序列数据集
2024-03-04
基于pytorch使用LSTM实现文本匹配任务代码和训练文件
2024-03-04
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人