自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(147)
  • 资源 (9)
  • 收藏
  • 关注

原创 【论文阅读】Far3D: Expanding the Horizon for Surround-view 3D Object Detection

论文: https://arxiv.org/pdf/2308.09616代码: https://github.com/megvii-research/Far3DA: 这篇论文提出了一个名为Far3D的新型3D对象检测框架,旨在解决从环视图像中进行长距离3D对象检测的挑战。尽管现有的基于环视图像的3D对象检测方法在成本低廉和应用广泛方面取得了显著进展,但它们主要集中在近程感知范围,而对远程检测的探索较少。直接将现有方法扩展到长距离检测面临如下挑战:计算成本高:随着检测范围的扩大,需要处理的数据量和计算量显著

2024-08-13 11:58:58 1009

原创 【论文阅读】Exploring Object-Centric Temporal Modeling for Efficient Multi-View 3D Object Detection

query 级别的时许融合

2024-08-06 13:33:28 597

原创 【论文阅读】PETRv2: A Unified Framework for 3D Perception from Multi-Camera Images

引入任务特定的查询(task-specific queries),例如车道检测的3D锚定车道和BEV分割的seg查询,这些查询在不同的空间中初始化,并与transformer解码器中的多视图图像特征进行交互。通过3D坐标对齐(3D Coordinates Alignment)实现不同帧之间的时间对齐,将上一帧的3D坐标转换到当前帧的坐标系中,以增强目标定位和速度估计。改进原有的3D位置嵌入(3D PE),通过FPE使3D PE依赖于输入图像数据,利用2D图像特征提供的信息(如深度)来指导查询学习。

2024-08-03 16:41:09 1042

原创 self-attention(自注意力) 和 cross-attetion(交叉注意力) 中的差异

自注意力和交叉注意力的差异

2024-08-01 15:17:03 1195

原创 PCA和Kmean在人脸重建olivetti人脸数据集上的比较

KNN(K近邻)算法是最简单且常用的分类算法之一。它属于有监督学习算法,尽管看起来与无监督学习算法K-means相似,但两者本质上不同。那么,什么是KNN算法呢?接下来我们进行介绍。KNN的全称是K Nearest Neighbors,即K个最近的邻居。其核心思想是:在预测新样本x时,根据其在特征空间中距离最近的K个邻居的类别来判断x的类别。PCA(Principal Component Analysis),即主成分分析法,是特征降维最常用的手段之一,也是最基础的无监督降维算法。

2024-07-23 09:34:42 975

原创 基于词级ngram的词袋模型对twitter数据进行情感分析

N 格是指给定文本或语音样本中 n 个项目的连续序列。这些项目可以是音素、音节、字母、单词或碱基对,具体取决于应用。N-grams 广泛应用于计算语言学和文本分析中的各种任务,如文本预测、拼写校正、语言建模和文本分类。它们为文本挖掘和自然语言处理(NLP)提供了一种简单而有效的方法。###了解 N 符n-gram 的概念很简单:它是由 ‘n’ 个连续项组成的序列。Unigram(n=1): 单个项目或单词。Bigram(n=2): 一对连续的项目或单词。Trigram(n=3): 连续的三联项或词。

2024-07-19 19:07:20 1251

原创 llama 2 改进之 RMSNorm

通过激活函数后,其中,随着前一层的更新,层的输入分布会发生变化。论文假设LayerNorm中的重新居中不变性是可有可无的,并提出了均方根层归一化(RMSNorm)。RMSNorm根据均方根(RMS)将一层神经元的总和输入正则化,得到模型重新缩放不变性特性和隐式学习率适应能力。在本文中,假设重新缩放不变性是LayerNorm成功的原因,而不是重新定中心不变性。是增益参数,用于重新调整标准化求和输入的大小,一开始设置为 1。分别是根据原始求和输入估计的均值和方差统计量。的归一化替代值用于层激活。

2024-07-18 16:07:31 1188

原创 LLaMA 数据集

多样化数据来源:涵盖从网络抓取数据到书籍、科学论文和问答网站的数据。高效预处理:通过多种预处理技术确保数据的高质量和相关性,包括语言识别、质量过滤和重复数据删除。覆盖多语言:重点涵盖使用拉丁字母和西里尔字母的多种语言,提高模型的多语言处理能力。LLaMA 2在训练设置和模型架构上大部分继承了LLaMA 1的配置,但也进行了几项重要的改进和调整。LLaMA 2在保持LLaMA 1基础架构的同时,通过增加上下文长度和引入分组查询注意力机制,进一步提升了模型的能力。

2024-07-18 16:06:40 929

原创 LLaMA 背景

模型介绍:LLaMA是Meta开发的语言模型,旨在推动开放科学和人工智能的实践。参数范围:这些模型的参数数量从7B到65B不等,覆盖了不同规模的需求。训练数据:LLaMA模型是在数万亿个公开数据集的tokens上训练的,这使得它们具有广泛的语言理解和生成能力。LLaMA通过在大量训练数据上的优化,实现了高效的语言理解和生成能力,且在计算资源、存储和传输等方面具有显著优势,使其在实际应用中更具竞争力。

2024-07-18 13:56:16 445

原创 LLM 的储备知识

n Softmax层权值矩阵与目标语言词向量矩阵共享参数。Transformer Decoder 结构。• 掩码多头自注意神经网络。• 多头自注意神经网络。

2024-07-18 12:22:42 176

原创 【论文阅读】PETR: Position Embedding Transformation for Multi-View 3D Object Detection + 代码

在本文中,我们开发了用于多视图 3D 对象检测的位置嵌入变换(PETR)。PETR 将 3D 坐标的位置信息编码为图像特征,产生 3D 位置感知特征。对象查询可以感知 3D 位置感知特征并执行端到端对象检测。PETR 在标准 nuScenes 数据集上实现了最先进的性能(50.4% NDS 和44.1% mAP),并在基准测试中排名第一。它可以作为未来研究的简单而强大的基线。

2024-07-03 21:19:58 1154 1

原创 【论文阅读】COTR: Compact Occupancy TRansformer for Vision-based 3D Occupancy Prediction

为了解决这些问题,论文提出了一种名为Compact Occupancy TRansformer(COTR)的方法,它包括一个几何感知的占用编码器和一个语义感知的组解码器,以重建一个紧凑的3D OCC表示。总结来说,COTR通过提出紧凑的3D占用表示和语义感知的组解码器,有效地解决了3D占用预测中的几何信息丢失、计算成本高和语义可区分性差的问题。现有的3D占用表示缺乏语义可区分性,这限制了网络成功识别稀有物体的能力,这部分是由于数据集中的类别不平衡问题导致的。

2024-06-21 11:31:47 893

原创 【论文阅读】Co-Occ: Coupling Explicit Feature Fusion With Volume Rendering Regularization for Multi-Modal

论文:https://arxiv.org/pdf/2404.04561v1代码:https://github.com/Rorisis/Co-Occ?

2024-06-20 12:05:25 954

原创 【论文阅读】Occupancy-MAE: Self-supervised Pre-training Large-scale LiDAR Point Clouds

占位-MAE 的整体架构。我们首先将大尺度不规则激光雷达点云转换为体积表示,根据其与激光雷达传感器的距离随机屏蔽体素(即范围感知屏蔽策略),然后利用非对称自动编码器网络重建一般三维世界的几何占位结构。我们采用三维空间稀疏卷积 [6],以位置编码作为编码骨干。我们将二元占位分类作为前置任务,以区分体素是否包含点。预训练完成后,轻量级解码器将被丢弃,编码器将用于下游任务的骨干预热。数据流结构图GitHub里面的结构图。

2024-06-19 14:11:54 718

原创 BEV(二)多frames融合

当前帧的LIDAR数据**

2024-06-18 17:50:11 837

原创 BEV 中 multi-frame fusion 多侦融合(一)

dataroot: 数据集的根路径,类型为字符串,默认值为 ‘./project/data/nuscenes/’。是根据现有数组的形状和数据类型来创建新数组,而numpy.full()则需要手动指定形状和数据类型。获取边界框的速度信息,并将其转换为所需的格式。

2024-06-18 17:44:20 1028

原创 【论文阅读】Multi-Camera Unified Pre-Training via 3D Scene Reconstruction

问题定义:论文针对自动驾驶领域中多摄像头3D感知的问题,提出了现有算法主要依赖单目2D预训练,忽略了多摄像头系统中的空间和时间相关性。UniScene框架:提出了首个多摄像头统一预训练框架UniScene,该框架通过3D场景重建作为预训练的基础阶段,然后在下游任务上对模型进行微调。占用表示:采用占用(Occupancy)作为3D场景的通用表示,使模型能够在预训练过程中掌握周围世界的几何先验。无标签预训练:UniScene能够利用大量的未标记的图像-LiDAR对进行预训练,减少了对昂贵3D标注的依赖。

2024-06-18 13:17:55 1238

原创 Springer参考文献按照出现顺序排序

参考链接。

2024-06-14 10:51:32 511

原创 4090显卡 安装cuda 11.3 版本

4090 安装其他版本的cuda

2024-06-13 20:05:17 1489

原创 LSSViewTransformer 中每个类别的意思

LSSViewTransformer 中每个类别的意思详细解释:类 定义:测试类 定义:运行测试:代码详解:create_frustum 方法生成深度轴、输入图像大小和下采样因子的网格信息。方法参数包括深度轴配置(depth_cfg),输入图像大小(input_size),和下采样比例因子(downsample)。visualize_frustum 函数定义:使用 Matplotlib 创建三维图形。从 frustum 张量中提取 x, y, d 坐标,并在三维空间中绘制这些点。设置坐标轴标

2024-06-05 11:58:31 720

原创 mmdet3D中文注释

【代码】mmdet3D中文注释。

2024-06-03 13:05:04 495

原创 vscode 如何debug(二)

在 Python 项目中配置 VS Code 进行远程调试是一个常见的需求。

2024-06-03 11:47:51 446

原创 使用ipdb来在终端上面进行debug

终端debug

2024-06-03 11:26:38 384

原创 【mmdet问题】error: unrecognized arguments: --local-rank=0

如果直接使用github里面的给的命令进行的话,回报错。所以我们要加多一行让他认识到 local-rank。

2024-05-29 17:48:07 1022

原创 LiftSplatShoot中用于处理多视角图像数据并生成鸟瞰图(调试)

根据LSS代码中explore.py 中来显示出来图像。对于 nuscenes dataset 的数据设定。图像坐标系向ego坐标系进行坐标转化。

2024-05-22 11:45:44 218

原创 LiftSplatShoot中用于处理多视角图像数据并生成鸟瞰图

gen_dx_bx:函数用于生成网格参数。self.downsample:是图像下采样因子,用于减少计算复杂度。self.camC:是相机特征通道数。self.frustum:是由create_frustum方法创建的视锥体。CamEncode和BevEncode是两个特征编码模块。

2024-05-22 10:28:23 205

原创 Nuimages 数据集介绍和下载,mmdet3d的训练方法

Nuimages 数据集介绍和mmdet3d的训练Nuimages的方法

2024-05-20 14:44:38 1264

原创 COCO2017 数据集的下载方法

我们提供了下载 COCO 等数据集的脚本,你可以运行。mmdetection 下载。opendatalab 下载。下载 COCO 数据集。

2024-05-20 13:48:58 3561 3

原创 [论文阅读]TransXNet: Learning Both Global and Local Dynamics with a Dual Dynamic Token Mixer 和代码

论文想要解决的问题和模块代码分析,同时提高可以测试的方式

2024-05-07 12:38:59 1174 1

原创 HTML 基本骨架(二)

HTML的基本骨架

2024-05-06 12:39:45 361

原创 [论文阅读]Adversarial Autoencoders(aae)和代码

本文提出的"对抗式自动编码器"(AAE)是一种概率自动编码器,它使用最近提出的生成对抗网络(GAN),通过将自动编码器隐藏代码向量的聚集后验与任意先验分布相匹配来执行变异推理。将聚合后验与先验相匹配可确保从先验空间的任何部分生成有意义的样本。因此,对抗式自动编码器的解码器会学习一个深度生成模型,将强加的先验映射到数据分布上。我们展示了对抗式自动编码器如何应用于半监督分类、图像风格和内容分离、无监督聚类、降维和数据可视化等领域。

2024-05-05 17:14:06 1232 2

原创 nerf(一)

nerf 开山之作

2024-05-05 01:18:11 160

原创 [论文阅读]DWRSeg: Rethinking Efficient Acquisition of Multi-scale Contextual Information for Real-time S

在这种方法中,多速率深度可分离卷积在特征提取中扮演更简单的角色:基于第一步提供的每个区域形式的简洁特征图,在第二步中执行简单的基于语义的形态学滤波,以提高效率。相应地,论文设计了一种新颖的扩张卷积残差(Dilation-wise Residual, DWR)模块和一种简单的反卷积残差(Simple Inverted Residual, SIR)模块,分别用于高层和低层网络,并构建了一个强大的DWR分割(DWRSeg)网络。输出特征图进入一个简单的全卷积网络(FCN)风格的解码器,最终预测由解码器生成。

2024-05-03 16:18:09 997 2

原创 使用mmdetection来训练自己的数据集(visdrone)(四)结果分析

关于test.py 的命令行。

2024-04-29 17:05:16 226

原创 使用mmdetection来训练自己的数据集(visdrone)(三)使用swin来实战

使用swin来实战

2024-04-29 14:30:51 513

原创 使用mmdetection来训练自己的数据集(visdrone)(二)数据集

转换数据集格式

2024-04-29 14:05:48 391

原创 使用mmdetection来训练自己的数据集(visdrone)(一)

torch 12.1 下 mmdetection安装

2024-04-29 13:48:55 416

原创 如何利用open3D来生成OCC

泊松曲面重建还将在低点密度区域创建三角形,甚至外推到某些区域(请参见上面 eagle 输出的底部)。create_from_point_cloud_poisson 函数有第二个 densities 返回值,该值指示每个顶点的密度。低密度值意味着顶点仅由输入点云中的少量点支持。在下面的代码中,我们使用伪彩色可视化 3D 密度。紫色表示低密度,黄色表示高密度。open3d 效果图。open3D 可视化。

2024-04-15 12:29:07 349

原创 mmcv-ful=1.6.0中不能识别pkl的问题

【代码】mmcv-ful=1.6.0中不能识别pkl的问题。

2024-04-12 12:54:54 214

原创 Distributed training error on Nuscene Dataset

当使用forkstart方法时,父进程在内存中创建自己的新副本(fork),子进程从与父进程相同的内存空间开始执行。一般来说,fork启动方法对于大多数用例来说是一个不错的选择,但重要的是要意识到它的局限性。如果您不确定使用哪种启动方法,您始终可以使用默认的spawn启动方法,这种方法更便携,但效率较低。在PyTorch中使用该模块时指定子进程的启动方法。startfork方法是基于 Unix 的系统的默认方法,通常被认为是生成子进程的最有效的启动方法。然而,启动方法也有一些限制fork。

2024-04-12 12:54:01 1086

PCA 和kmean算法比较.zip

在Olivetti人脸数据集上进行人脸重建的任务中,PCA和K-Means两种方法表现出不同的效果,在对kNN算法的影响

2024-07-23

基于词级ngram的词袋模型对twitter数据进行情感分析

基于词级n-gram的词袋模型对Twitter数据进行情感分析是一个有效的方法,可以捕捉文本中的细微情感特征。

2024-07-19

基于vgg16进行迁移学习服装分类

基于VGG16进行迁移学习的服装分类项目,是一个非常有趣且具有实际应用价值的任务。首先,VGG16是一个在ImageNet数据集上预训练的深度卷积神经网络,它因其简单而有效的架构而广受欢迎。通过迁移学习,我们可以利用VGG16网络已经学到的知识,即它的权重和特征提取能力,来解决我们特定的服装分类问题,而无需从头开始训练一个完整的模型。这样不仅可以节省大量的训练时间,还可以提高模型的准确率。 在开始编写代码之前,我们首先需要在Google Colab上设置我们的工作环境。Colab提供了免费的GPU,这对于加快深度学习模型的训练速度非常有帮助。接着,我们需要导入必要的Python库,如pytorch。这些库为我们提供了构建和训练深度学习模型所需的工具和接口。

2024-03-06

使用GRU进行天气变化的时间序列预测和天气时间序列数据集

在Google Colab平台上,利用pytorch来编写的,使用门控循环单元(GRU)进行天气变化的时间序列预测。GRU是一种特殊的循环神经网络(RNN),被设计来处理序列数据,如时间序列数据,通过捕捉序列中的时间动态特征来进行预测或分类。数据文档是一个天气时间序列数据集,它由德国耶拿的马克思 • 普朗克生物地球化学研究所的气象站记录。在这个数据集中,每 10 分钟记录 14 个不同的量(比如气温、气压、湿度、风向等),其中包含2009-2016多年的记录。

2024-03-04

基于pytorch使用LSTM实现文本匹配任务代码和训练文件

使用基于PyTorch框架的LSTM(长短期记忆)网络在Google Colab 上面来实现文本匹配任务,包括完整的代码实现和必要的训练数据文件。这个过程涉及构建一个深度学习模型,该模型能够理解并比较两段文本的含义,判断它们在语义上是否匹配或相关。实现这一功能需要详细的步骤,包括数据预处理、模型设计、训练过程以及最终的评估

2024-03-04

lenet 的 tensorflow版本,同时里面对卷积层的可视化

lenet 的 tensorflow版本,同时里面对卷积层的可视化

2023-09-11

基于pytorch使用LSTM实现新闻本文分类任务

在colab环境下实现,如果想使用cpu的话 自己换一下device的代码就可以了

2023-09-10

Pytorch实现基于LSTM的情感分析的代码和数据集

Pytorch实现基于LSTM的情感分析的代码和数据集

2023-08-31

基于pytorch LSTM 的股票预测

基于pytroch LSTM的股票预测,用于参考

2023-08-31

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除