Tianchao龙虾-CSDN博客

TopFormer: Token Pyramid Transformer for Mobile Semantic Segmentation论文链接： https://arxiv.org/abs/2204.05525一、 Problem Statement是否能够设计出一个mobile-friendly Vision-Transformer的网络，能够比mobileNets有更低的延迟性，但能有更好的性能。二、 Direction结合MobileNet和vision transformer。三、

2022-04-23 17:28:17 3840

原创 In Defense of Classical Image Processing: Fast Depth Completion on the CPU 论文笔记

In Defense of Classical Image Processing: Fast Depth Completion on the CPU论文链接： https://arxiv.org/abs/1802.00036代码地址: https://github.com/kujason/ip_basic一、 Problem Statement如果将目前的激光雷达传感器数据投影到图像上的话，只能获得稀疏的深度图。这样会限制依赖于深度图的算法，比如3D目标检测等等。但深度补全的算法目前大部分都依赖于深

2022-03-08 21:54:23 5285 1

原创多传感器融合课程笔记------信息融合

多传感器融合之信息融合一、多传感器融合的优点冗余性：多个传感器数据对目标的描述表示是相同的（如激光雷达检测的目标信息和摄像头目标信息大体一致，允许有一定的属性误差）；互补性：由于每个传感器的探测范围和探测属性不同，传感器之间的目标属性可以相互补充（如前方障碍物的颜色信息，激光雷达识别不出来）；合作性：不同传感器在处理信息时会对其他信息有所依赖（如相机在建立位姿关系时，需要依赖IMU的数据）；信息分层：可以根据数据融合所呈现的位置，进行分层，包括原始数据层（简称像元层）、特征层、决策层（也叫

2022-02-24 22:57:00 2370

原创多传感器融合课程笔记------多传感器融合之绪论

多传感器融合之绪论一、传感器类型摄像头激光雷达毫米波雷达超声波雷达IMUGNSS和RTK1. 摄像头摄像头根据安装位置，可以分为前视、侧视、后视、内置、环视等。摄像头相关参数介绍：焦距焦距和FOV关系相反。有效的探测距离视场角分辨率大小最低照度信噪比动态范围2. 激光雷达激光雷达参数：视场角分辨率测距范围刷新频率扫描频率激光波长：通常为纳米级，最常见为905nm和1550nm。最大辐射功率激光雷达的测距有两种，一种是基于时间的测量方法，

2022-02-24 21:56:08 2386 4

原创 SMOKE: Single-Stage Monocular 3D Object Detection via Keypoint Estimation 论文笔记

SMOKE: Single-Stage Monocular 3D Object Detection via Keypoint Estimation 论文笔记论文链接： https://arxiv.org/abs/2002.10111一、 Problem Statement目前的单目3D视觉中，通常非常依赖于RCNN网络或者RPN网络，然后会多加一个分支去学习3D信息或者产生伪激光雷达，然后将它们放入点云检测网络中。作者认为2D检测网络是冗余的，且对3D目标检测来说引入了不可忽视的噪声，导致学习3D几

2022-02-22 23:24:36 2589

原创 A ConvNet for the 2020s 论文笔记

A ConvNet for the 2020s论文链接： https://arxiv.org/abs/2201.03545一、 Problem Statement现在Transformer大行其道，很多纯卷积的网络也不断的革新。这篇文章分析transformer的优势，也借鉴了一些新的卷积网络的点，基于ResNet50和ResNet200逐步提升精度。二、 Direction作者认为，Transformer的优势在于其multi-head self-attention中优异的scaling beh

2022-01-17 23:22:26 5271

原创 DataAnnotation

KITTI格式的3D目标框标注在得到图像数据，激光雷达数据，标定数据之后,需要进行3D目标框标注。本文采用的标注工具采用的是:SUSTechPOINTS。这个工具是2020年IEEE收录的，是一个比较好的开源项目，可以使得激光雷达和图像数据联合标注，感谢这个工作的贡献者。标注分为下列两个步骤:安装SUSTechPOINTS导入数据标注结果一、安装SUSTechPOINTS根据官方安装方式即可。二、导入数据这个部分强调的是calibration这个文件。我们从autoware标定得到的结

2022-01-11 21:53:35 7507 11

原创 DataCollection

KITTI采集数据此前我们已经安装了相关的相机驱动，且我们的海康工业相机采用USB3.0接口，但是直接用opencv读取不了数据，但是又由于购买的时候没有ROS驱动。因此通过官网所提供的示例，修改为通过ROS发布图像数据话题。分为下面三个步骤:编写工业相机代码发布话题同步采集激光雷达和图像数据pcd文件转bin文件一、编写代码发布图像话题因为要同时采集激光雷达数据和图像数据，本文利用ROS的同步机制而没有采用相机的触发机制。而KITTI上，有这么一句话说明图像采集方法:The camera

2022-01-11 21:53:28 1166

原创 LidarCameraCalibration

激光雷达与相机的标定采用的是autoware标定包和autoware...ai。分为下列步骤:标定板选择安装autoware标定包标定得到标定结果安装autoware...ai一、标定板的选择本文选择的标定板大小 600x450 mm，方格边长45mm，图案阵列为12x9。二、安装autoware标定包安装autoware标定包是来自于XidianLemon。將其下载下来后，编译。编译后进入此工作空间，运行:rosrun calibration_camera_lidar calib

2022-01-11 21:53:21 1718

原创 HKCamera

工业相机的选型以及安装选择一个工业相机和镜头，并需要和激光雷达进行联合标定。本文采用的是海康的工业相机和镜头，velodyne16线的激光雷达。一、工业相机型号和镜头型号工业相机: MV-CA013-21UM/UC镜头: MVL-HF0828M-6MP二、安装相机驱动并读取图像数据通过这个链接，下载客户端MVS。本文所使用的是ubuntu16.04，因此下载的是linx X86 平台。下载解压后有四个文件压缩包MVS-2.0.0_i386_20191126.debMVS-2.0.0_i38

2022-01-11 21:53:14 733

原创 3D 目标(pointpillars)识别方案

3D 目标(pointpillars)识别方案对车辆进行3D的目标识别，经过调研之后，发现autoware 和 apollo等平台均采用pointpillars算法。因此便尝试单纯使用激光雷达数据进行识别。方案实施步骤:理解pointpillars算法模型，并复现。了解自动驾驶数据集KITTI的格式。采集数据并标注。训练与部署。一、理解pointpillars算法模型pointpillars的论文解读可以看这篇论文解析。二、了解KITTI数据的格式因为pointpillars输入的数

2022-01-11 21:51:10 5014 26

原创 VideoMix 论文笔记

VideoMix: Rethinking Data Augmentation for Video Classification VideoMix 论文链接: https://arxiv.org/abs/2012.03457代码地址:https://github.com/jayChung0302/videomix一、 Problem Statement对于视频识别任务中的数据增强策略缺乏广泛的研究。作者试验图像域(static image-domain)数据增强策略对视频数据的有效性，特别是基于特

2021-11-23 16:02:21 2759

原创 Data Augmentation for Video Recognition 论文笔记

Learning Temporally Invariant and Localizable Features via Data Augmentation for Video Recognition ECCV 2020 论文链接: https://arxiv.org/abs/2008.05721一、 Problem Statement图像识别中数据增强的目的是通过学习空间不变特征来增强泛化能力。比如，geometric (cropping，flipping，rotating等)，photometric

2021-11-20 14:34:17 3049

原创 A Comprehensive Study of Deep Video Action Recognition 论文笔记

A Comprehensive Study of Deep Video Action Recognition 论文链接: https://arxiv.org/abs/2012.06567一、 Problem Statement来自于李沐团队关于Action Recognition的综述。二、 Direction介绍了video action recognition的挑战:modeling long range temporal information in videoshigh comp

2021-11-18 13:36:49 1468

原创 K-Net 论文笔记

K-Net: Towards Unified Image Segmentation K-Net NeurIPS2021论文链接: https://arxiv.org/abs/2106.14855一、 Problem Statement目前的语义分割方法直接学习一系列的预定好类别的卷积核(semantic kernels)，然后使用这些卷积核进行像素分类。然而，鉴于图像中实例数量的变化，将这一概念扩展到实例分割并非易事。在语义分割中，每个卷积核负责查找图像中相似类别的所有像素。而在实例分割中，每个像

2021-11-16 16:01:06 6993

原创 UPSNet 论文笔记

UPSNet: A Unified Panoptic Segmentation Network UPSNet CVPR2019 论文链接: https://arxiv.org/abs/1901.03784一、 Problem Statement目前很多网络都是利用实例分割和语义分割，进行后处理后得到全景分割的效果，因此作者提出一个统一的网络解决全景分割问题。Motivation: Since both tasks aim at understanding the visual scene at t

2021-11-12 09:37:22 1187

空空如也

空空如也