_cv_-CSDN博客

原创 ROBOMASTER机甲大师赛视觉组学习方案2023更新第一版

之前推荐了一些机器学习的课程也可以看但机器学习其实还是比较基础，目前最新的方向还是LLM，深度学习，多模态之类，slam方向也不错，要了解一些当下最新最热的方向。在计算机视觉的学习和使用过程中最最麻烦和最应该担心的事情就是环境配置的问题，学习语言和程序编写相对于此则更为容易一下，环境配置难在他的不确定性太多。

2023-04-10 10:43:42 2393 1

原创 ROBOMASTER机甲大师赛视觉组学习方案

ROBOMASTER机甲大师赛视觉学习方案视觉技能学习踩坑硬件平台个人修为坑机甲大师（RoboMaster）是由大疆创新（DJI）的创始人汪滔发起并承办、由共青团中央、全国学联、深圳市人民政府联合主办的年度机器人竞技赛事，为全国大学生机器人大赛旗下的四大赛事之一，并且是全球首个射击对抗类的机器人比赛。其在2015年诞生伊始就凭借其颠覆传统的机器人比赛方式、震撼人心的视听冲击。视觉技能C++/python程序语言学习按照机甲大师官方参赛攻略要求视觉（算法）组应当掌握一门熟悉一门汇编语言，对此个人建

2020-07-24 21:10:58 12636 3

原创轻舟智航内推码

轻舟智航QCraft社招内推码: ESSMC94

2024-11-18 19:45:01 562

原创 GPU无进程但显存占用

上面这个命令会将所有包含 /debug 字符串的、正在使用 NVIDIA GPU 的进程的 PID 号写入到 pids_to_kill.txt 文件中，而不是直接杀死这些进程。所以就捣鼓了一下，写成blog造福大家！为了保险起见我将要杀死的进程的 PID 号保存到一个文件中，而不是直接杀死它们，当然也是可以做到。这个命令会读取 pids_to_kill.txt 文件中的每一行（也就是每一个 PID），然后杀死对应的进程。grep /debug 是查找命令里面的关键字区分，哪一组是正在跑，哪一组是死掉了的。

2024-01-26 20:00:39 1771

原创 Nuscenes 超强先验

别人论文实现的distribution of object localization 统计结果。自己统计的所有标注目标在bev下的投影结果。plt的保存格式导致图像的反转。打榜的人有福了，哈哈哈。

2024-01-26 19:45:51 828

原创万字长文谈自动驾驶occupancy感知

照老样子先说为什么会写这篇文章，因为到目前我的分割大模型对实际部署的小模型并没有帮助。这让我有点郁闷，更郁闷的是后面蒸馏的环节目前也不是我在做，照理直接拿推理结果当hard label来搞也不是不可以吧。卡不够我的大模型还在训，等训完想自己上手搞一搞蒸馏，我还就不信了学不好！所以这段时间就写一写看过的paper了，看Bev的时候occupancy相关的有些文章也顺便看了，写一写挺好的。ok，那第一个，为什么自动驾驶感知都已经有bev了，又出来了occupancy(占用网格）？这是2022年特斯拉提出来的一

2023-12-31 19:03:51 7248 1

原创万字长文谈自动驾驶bev感知(一)

万字长文浅浅谈一下自动驾驶的bev感知算法，以及在考虑要不要后面搞nlp+cv，搞Embodied AI

2023-12-27 17:04:31 4230 6

原创 EfficientSAM: Leveraged Masked Image Pretraining for Efficient Segment Anything 浅浅析

要让小的Encoder去学，走下面先对图片做mask然后过小的encoder，对未被mask的部分做编码，然后把mask的和没被mask的一起送到decoder做还原，这里还加了一个线性投影用来和SAM Encoder做对其，然后用重建loss，就训起来了。说一下个人感受吧，首先就是标题党，真是震惊！其次，最直观的我的第一影响，这蒸馏完点都下去了，放出来的图还会比原版SAM的效果好，着实令人震惊，效果好点还掉了？最后，还是很有意义的工作，怎么能在尽可能保留原版大的模型性能的同时兼顾效果，是一个永恒的命题。

2023-12-07 17:58:41 1607

原创 Segment Anything--SAM框架（二）

为了在应用程序中使用，我们想对预测的掩码进行排名，因此我们添加了一个小头（在额外的输出令牌上运行），它估计每个预测掩码与其覆盖的对象之间的 IoU。受可扩展性和对强预训练的访问的启发，我们使用 MAE [47] 预训练的视觉转换器 (ViT) [33]，并以最小的适应处理高分辨率输入，特别是具有 14×14 窗口注意的 ViT-H/16 和四个等间距的全局注意块。由于我们的运行时目标是实时处理每个提示，我们可以提供大量的图像编码器FLOPs，因为它们每张图像只计算一次，而不是每个提示。

2023-12-06 17:52:37 1665

原创 Segment Anything--SAM自动标注（一）

要训练神经网络就需要对训练的数据进行标注但是标注成本实在是太高了，对大公司来说直接劳动力密集型覆盖当然没什么问题，但是中小公司标注还是很慢的没法满足训练快速迭代的需要，所以就有了自动标注。这文章并不是说做了一个什么样的模型，而是一个项目，如上图C，通过标注数据，训练模型，然后又通过模型生成标注数据，不断迭代。首先，如果要搞自动标注要面对的第一个问题是，SAM的输出结果并没有语义信息，这是最要紧的，当然我花了一些时间去找paper看别人是怎么做的。现实的情况是，SAM的分割效果并不完美。

2023-12-06 14:56:21 2750

原创使用amp训练出现Detected call of lr_scheduler.step() before optimizer.step().

这个警告是怎么产生的？是由于在算梯度的时候出现了nan，所以这一次更新会跳过，但是参数仍旧会更新所以出现了问题，按下面的做法加一个判断就行了。但是在使用amp进行混合精度训练出现的一个warning，调换代码顺序也不work。正常在训练的时候，对于优化器和参数更新的顺序这样就可以了。

2023-10-12 17:58:55 1264 2

原创 pip 指定源（换源）

个人比较推荐的有清华源，豆瓣源，一般来说就够用了。当然还有阿里源，中科大源等。在运行命令后面直接加 -i 指定一个国内源安装会快很多。

2023-10-10 11:22:48 893

原创【ICCV 2023 best paper】Adding Conditional Control to Text-to-Image Diffusion Models （浅析）

我不是做文生图的，也不是做扩散模型，这篇文章也只是非常浅的搂了一眼。但从我的出发点来看最有用的东西应该是他这种训练方式和zero conv做为特殊连接层的使用，后面搞分割大模型做微调可以尝试一下或许。后面有空会有关于这篇文章更详细的分析（仅代表个人看法不是什么真知灼见）。

2023-10-07 11:39:10 1020

原创【ICCV 2023】UniTR: A Unified and Efficient Multi-Modal Transformer for Bird‘s-Eye-View Representation

值得注意的是，只考虑落在视图图像中的投影点，因此有效图像点的数量ν≤|VP | × B。从这个流程图来看输入是camera和lidar的token，然后在intra-modal block里面各自做self-attention，做完之后在inter-modal block（2D）里面把3Dlidar投影到2D（这一步用的内外参），做自注意力操作，然后在inter-modal block（3D）里面把2d 图像投影到3d（这一步在最开始的图上看到了有无lss就合理了,应该有类似操作)再做注意力操作。

2023-10-01 20:15:12 1640

原创【CVPR 2023】DSVT: Dynamic Sparse Voxel Transformer with Rotated Sets

先说一下为什么我会看到这篇文章，其实最开始我并没有太关注这篇，因为他算是一种架构上的设计了（类似于convnext这样）。我最开始看到到文章其实是UniTR:A Unified and Efficient Multi-Modal Transformer for Bird’s-Eye-View Representation这篇，因为当时一心说搞一搞bev的检测，看文章的时候发现有些东西看不懂往回找才看到。

2023-10-01 15:43:34 2636

原创 Entity Segmentation是什么，和semantic Segmentation, instance Segmentation,panoptic Segmentation有什么区别?

如图所示现在来说instance Segmentation。既然语义分割关注的是不可数的stuff,那实例分割关注的就是可数的things。

2023-09-30 14:20:21 744

原创【ICCV 2023 Oral】High-Quality Entity Segmentation分享

这篇文章的模型叫CropFormer，至于这个模型是什么我们会详细讲一下，简单来说这个模型会学N个Q（N×K,k是维度），用Q去生成mask embeddings E（N×1×1×1×K），E会被用作convolution filters，对 pixellevel mask features P2 （T ×H×W,T是image view，H是height ,W是with)处理完后生成N个segmentation masks Um （N×T ×H×W ）。当然不仅仅是这么简单。

2023-09-29 18:23:35 1147

原创 nuscenes稠密深度图生成

nuscenes 稠密深度图生成

2023-09-28 15:36:13 1319 3

原创【nuScenes SOTA】EA-LSS：Edge-aware Lift-splat-shot Framework for 3D BEV Object Detection个人解析

文章就是这样，然后呢因为lss是个插件，可以和现有的很多算法相结合，于是就结合了一下此前的sota,bevfusion，然后得到一个新的sota就是这样。这个模块简单来说就是解决来自点云的投影深度图和预测深度图之间，由于两者稀疏程度不同，投影过来的真值更稀疏，导致算Loss的时候会有很多零值造成的影响这个问题，具体怎么解决看代码，就是这样一个东西。如上图所示，我们从点云投影到图像上的深度图是非常稀疏的，大概只有5%左右的有效点，这个图叫D，然后做了一个什么事情呢？

2023-09-28 15:24:05 1943

原创 lift-splat-shoot（LSS）代码详解

【代码】lift-splat-shoot（LSS）代码详解。

2023-09-28 14:30:16 1949

原创 GKT--Efficient and Robust 2D-to-BEV Representation Learning via Geometry-guided Kernel Transformer代码

【代码】GKT--Efficient and Robust 2D-to-BEV Representation Learning via Geometry-guided Kernel Transformer代码。

2023-06-12 15:29:47 884

原创自动更新host脚本

【代码】自动更新host脚本。

2023-05-10 17:40:52 1207

转载自动驾驶专业名词简写简写缩写

L0：人工驾驶，驾驶员执行全部的驾驶任务，主要是一些预警和提示功能，常用的传感器有摄像头（前视、环视、座舱等）、毫米波雷达、超声波雷达。L1：辅助驾驶，在适用的设计范围下，驾驶自动化系统（driving automation system）可持续执行横向或纵向的车辆运动控制的某一子任务（不同时进行），驾驶员负责执行其他的动态驾驶任务。提供辅助和控制的功能（偏辅助），常用的传感器有摄像头、毫米波雷达、超声波雷达。

2023-04-21 14:48:16 4442

原创 github clone 代码

git code

2023-04-05 10:43:36 329

原创 C++性能工具--gperftools

当c++程序需要优化运行速度，或者需要降低计算负载时，我们需要借助工具来进行分析哪个函数是最耗时的，那个函数的调用次数是最多的，那么gperftools将是不错的选择。

2023-04-04 19:54:21 740

原创 Vscode Debug调试 launch.json配置方法

Vscode python 程序Debug调试 launch.json配置方法

2023-03-08 17:08:50 2215

原创 3D目标检测pointpillars简介

目标检测很重要，虽然工作了但是目前做的是目标检测的后处理。后面应该会偏向多传感器融合，工作如此，但是自己还是想follow一些目标检测领域比较sota的算法。今天介绍的是一篇在工业界广泛使用的3d目标检测算法。...

2022-07-22 11:00:33 1260

原创 opencv跟踪算法

robomaster系统opencv跟踪算法

2022-07-22 10:36:53 2110

原创实习-人物

二零二一年十一月十二日，是极其平常的一个日子。那天中午我和祁桐老师在清华科技园对面的跷脚牛肉聊了两个多小时，一直到下午将近三点多才回到启迪C12。那天发生了很多的事情，现在回忆起来，有难忘的快乐，有心如刀绞般的难过，有将要离开身边熟悉的人事的迷茫与不舍，有对过去经历的种种的怀疑，总而言之，那是一个很特别的，如梦幻泡影般的午后，伴着一种很深的难过。让人没有一点痛苦，但只能回忆起来，总会切身的感受到彼时内心的悸动。十一月的北京在降下今年的第一场初雪后，气温将将有些回升。在启迪高档的写字楼里已经有了供暖，温度很

2021-12-07 15:22:46 282

原创关于我做的自动驾驶仿真那些事

OK，首先来讲一下写这篇文章的缘起，在研究院实习的某一天我像往常一样无所事事的搞着自己的一些东西，当然也不算是什么特别有用的事情。突然祁老师把叫了出去，后面跟着鹏飞，他对着我一脸笑嘻嘻的样子。这时我心里对接下来要发生的事情大概已经有了想法。因为鹏飞曾多次打探我最近在做什么项目，有没有时间做一下自动驾驶的仿真调研，我当时很敏锐的意识到这是在安排活，便设法推开了。因为确实对仿真不感兴趣，对我来说如果是一辆真车的话那情况立马就变了。但他既然再三找到我应该也是一时半会找不到合适的人手来做，并且当时我确实没有什么特.

2021-10-22 09:44:16 303

原创自动驾驶调研报告

自动驾驶仿真调研在此前上传的两本蓝皮书已对自动驾驶仿真国内外各方面进行了综述，我们需要重点关注国内外自动驾驶仿真测试环境与平台特性、自动驾驶场景库。了解自动驾驶仿真平台系统各个组成部分。一个完整的自动驾驶仿真平台，需要包括静态场景还原、动态场景仿真、传感器仿真(摄像头仿真、毫米波雷达仿真、激光雷达仿真）、车辆动力学仿真、并行加速计算等功能。以下为各仿真软件平台特性对比。仿真软件特性对比表说明仿真软件特性对比表一、仿真平台科技公司：腾讯自动驾驶仿真平台 TAD Sim TAD Sim

2021-10-20 14:46:14 4966

原创在北京实习的雨天

昨夜我躺在床上转辗反侧的睡不着觉，但我也不知自己是在忧心什么，拿出手机随意的翻动着屏幕也并未有人与我联系，就这样随意的浏览着。“北京海淀，小雨转多云，气温17~25摄氏度，时间12:06”，“唉，又下雨，今年全国各地的b雨水似乎挺多的”对于这样的天气提醒，我并没有留心，因为北京的天气也是多变的，他往往不会轻易的像预报所说的那般，这么容易让人猜中。当然这也和北京的地理位置分区和产业分布有关系吧。不过刚刚下床，确实会有一股子潮湿的气息。“不早了，虽然我有着准时的早起生物钟，但早些休息总还是好的”，我心想

2021-09-26 10:40:47 279 2

原创基于树莓派的热成像摔倒报警系统

本项目使用树莓派3B为运算平台，系统版本为2020-8-20.热成像硬件为mlx90640-110，运行环境为室温25摄氏度。程序流程为使用python将热成像传感器回传至树莓派的数字矩阵转化为灰度图像，将灰度图像再转化为彩色热力图，通过帧插法与轮廓查找与几何约束判断人体状态。当人体姿态改变时蜂鸣器短鸣3s左右警告，站立后恢复。当人体长期摔倒至一定时间后蜂鸣器长鸣报警，硬件重启后恢复。人体状态判断： img = np.zeros((24,32,3), np.uint8) #使用白色

2021-09-25 14:16:46 1665

原创关于秤的感想

杆秤与台秤：在中国传统的商贸中，杆称作为货物重量的衡量标准已经有着悠久的历史。中国古代的度量衡制度极为混乱，秦始皇在一统六国之后为便于全国贸易的交易与流通统一了度量衡。随后历朝历代各个地区对于读两行都有过不断的修正。杆称伴随着商旅贸易走遍了中国的大江南北，也沿着丝绸之路走向了世界各国。杆称见识过市井小民的箪食瓢饮，见识过王公贵族的钟鸣鼎食，也见证了盛世衰败和王朝兴替。时至今日，杆称作为称量工具仍然活跃在中国广大的农村家中，而在城市中则由更为精密的台秤所取代。如今斤秤文化已经深入人们心中。人们称量时，秤砣和

2021-09-24 14:25:55 924

原创 python qr码识别

# -*- coding: utf-8 -*-"""Created on Tue Aug 3 15:32:19 2021@author: song2"""import cv2 as cvimport numpy as np# 读取图像cap=cv.VideoCapture(1)cap.set(3, 640)# 帧宽cap.set(4, 480)# 帧高cap2=cv.VideoCapture(2)cap2.set(3, 640)# 帧宽cap2.set(4, 480)# 帧

2021-08-04 20:32:27 345

原创 python三张照片画面拼接

#将左图命名为1.jpg,中图命名为2.jpg,右图命名为3.jpg，存入py文件同目录下#运行程序即可出现拼接图#按下esc程序退出import cv2import numpy as npimport imutilsdef cvshow(name,img): cv2.imshow(name,img) cv2.waitKey(0) cv2.destroyAllWindows()def sift_kp(image): gray_image = cv2.cvtC

2021-08-04 20:30:24 1501

原创我所不能抵达的世界

我曾爱春，但春太过柔嫩，我曾爱夏，但夏太过荣夸，走过三冬，它太寒凛，果然秋才是我的格调。“生如夏花之绚烂，死如秋叶之静美，”床沿边摊放着泰戈尔的诗集，就让秋的静美伴我入梦吧。入梦来，入梦来，秋给我以平和，漫步秋日山林大道，一面欣赏他那忧郁的神采，一面接受着死亡的预示，我就是这样的走着了。梦古来兮，天地催崩，洪荒伏兮，万物相生。那是上古洪荒的遥远年代，那是文明初诞野蛮横行的年代，我听到了一首首动人的歌谣，那是三皇五帝的美丽动人的神话，我看到，远古时代里社会氏族和部落的原始生活，那是中华上古文明的历史源头，

2021-06-15 21:28:20 255

转载 RealSense D455与ROS的使用

转载一波 RealSense D455的标定并运行VINS-FUSIONhttps://blog.csdn.net/qq_40186909/article/details/113104595?ops_request_misc=&request_id=&biz_id=102&utm_term=D455&utm_medium=distribute.pc_search_result.none-task-blog-2allsobaiduweb~default-7-.nonecase

2021-06-02 11:43:48 2384

原创我的伦理学启蒙

文化相对主义内容提要一、文化多样性二、文化相对主义三、文化差异论证四、文化差异所体现的道德分歧是根本性的吗？五、文化相对主义的难题六、宽容问题一、文化多样性（阅读教材2.1）二、文化相对主义主张：(1)不同社会有不同的道德规范。(2)一个社会的道德规范在那个社会的范围内决定什么是对的;也就是说，如果某个社会的道德规范说某个行为是对的，那么这个行为就是对的，至少在那个社会内是这样的。(3)没有客观的标准来判断一个社会的道德规范比另一个社会的道德规范更好。在伦理学中，没有在所有的时代、

2021-05-31 10:22:35 12161 1

原创华为与蓝血十杰

**有人认为在目前互联网时代需要的是创新，而之前的工业管理思想已经过时了，但是华为却继续实行“蓝血十杰”的数字工程，其目的在于用互联网的精神，改变内部的电子管理打下坚实基础。并实现与客户、与供应商的互联互通。“蓝血十杰”以数据和事实为基础，以理性分析和科学管理的方式进行数字管理，奠定了现代企业管理体系的基础，同时他们还重新定义了财务部门的功能，承担起成本分析、利润分析、投资决策等；主张客户导向和力求简单的产品开发策略。虽然现代企业的主要驱动力应该是创新，但追求创新的基础，还是需要科学合理的管理。“蓝血十

2021-05-31 10:13:32 6332

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

semantic kitti 坐标转换

semantic kitti

机甲大师视觉实现方案

robomaster机甲大师装甲板旧版识别程序

基于树莓派3B的热成像摔倒检测系统MLX90640.py

基于树莓派的热成像摔倒检测与报警系统.py

针对rosdep update出错问题整理得出的无法连接网站文件资源 master.rar

yolov3-tiny.cfg

yolov4-tiny.weights

树莓派GPIO控制蜂鸣器libbeep.py

视觉巡线demo.py

红色气球计时demo.py

yolov3.cfg

package.xml

空空如也