- 博客(204)
- 收藏
- 关注
原创 cuda版本管理
背景,不同的项目需要不同的cuda版本。如一个需要cuda12, 一个需要cuda11。系统已经有一个cuda12了,那可以再安装一个cuda11, 然后通过切换版本进行管理。
2024-10-21 14:17:21
204
原创 sam2细节解析
模型输入prompt和image,特点是多了一个memory attention,将上一帧与当前帧通过attention机制进行融合,最后经过mask decoder推理输出。memory attention先self-attent,再和之前的帧(+目标点)cross-attention,最后接一个mlp。mask decoder结构,多任务的输出,除了mask输出,还有obj ptr、iou,occlusion。对于视频,是一帧一帧的进行输出的。不是batch的并行输出。
2024-10-15 17:31:34
210
原创 Image matting入门
Deep Image Matting:A Comprehensive Surveyhttps://www.zhihu.com/question/68146993/answer/2791899921https://github.com/michaelowenliu/awesome-image-mattinghttps://www.alphamatting.com/eval_25.phphttps://paperswithcode.com/task/image-matting
2024-09-20 10:02:59
453
原创 OPENAI O1总结Learning to Reason with LLMs
OpenAI 01在编程问题(Codeforces)上排名超过89%的人,在美国数学奥林匹克(AIME)预选赛中排名前500位,在物理、生物和化学问题(GPQA)的基准上超过了人类博士水平的准确性。参考:https://openai.com/index/learning-to-reason-with-llms/通过强化学习训练,O1推理时利用思维链,可以自动找到cot策略、纠正错误、简化推理步骤、再错误时换另一个思维链。和gpt4o相比,在编程、数据分析、数学计算等大幅领先gpt4o。所以这是一个偏科生。
2024-09-18 11:46:38
636
原创 LongWriter: Unleashing 10,000+ Word Generation from Long Context LLMs论文阅读
当前的LLMs能够处理100,000个token的输入,但在难以生成超过2,000个词。实验发现模型的有效生成长度本质上受到其在监督式微调(SFT)期间所见过的样本的限制。为了解决这个问题,我们引入了AgentWrite,它将超长生成任务分解为子任务,使现成的LLMs能够生成超过20,000个词的连贯输出。利用AgentWrite,我们构建了一个包含6,000个SFT数据的LongWriter-6k数据集,输出长度范围在2k到32k个词之间。
2024-08-29 09:52:37
1075
原创 大模型显存计算估算
xB的大模型,训练的显存占用约为16x GB, 使用lora大概占用4xGB。(默认全精度float32存储)推理的显存占用约为4xGB。
2024-08-28 14:57:24
546
原创 大模型微调算法汇总
Parameter-Efficient Fine-Tuning (PEFT) 技术旨在通过最小化微调参数的数量和计算复杂度,来提高预训练模型在新任务上的性能。一般新场景的业务,需要微调大模型。不需要从0训练。
2024-08-27 11:24:30
361
原创 Code Llama: Open Foundation Models for Code论文阅读
所有这些模型都是在大量代码数据上训练的,并且都经过了优化以提高在代码生成和理解任务上的性能。Code Llama - Python 专注于Python语言的代码生成,而 Code Llama - Instruct 专注于提高对自然语言指令的遵循能力,并增强了模型的安全性。基础模型 Code Llama 提供了广泛的代码生成能力,适用于多种不同的编程语言。Code Llama 发布了3款模型,包括基础模型、Python 专有模型和指令跟随模型,参数量分别为 7B、13B、34B 和 70B。
2024-08-26 19:36:05
774
4
原创 MiniCPM-V: A GPT-4V Level MLLM on Your Phone论文阅读
大模型的趋势:模型性能越来越好,模型参数变小,端边设备计算能力变强。
2024-08-19 16:26:27
1179
3
原创 论文阅读YOLO-World: Real-Time Open-Vocabulary Object Detection
RepVL-PAN由多尺度图像特征{C3, C4, C5}形成,利用了自顶向下和自底向上的路径来加强图像特征和文本特征之间的交互。模型架构:YOLO-World由YOLO检测器、文本编码器和RepVL-PAN组成,利用跨模态融合增强文本和图像表示。预训练方案:将实例注释重新定义为区域-文本对,通过大规模检测、定位和图像-文本数据进行预训练。V100上达到了52FPS!
2024-07-01 17:14:25
1119
原创 clip系列改进Lseg、 group ViT、ViLD、Glip、CLIPasso、CLIP4Clip、ActionCLIP
在clip后面加一个分割head,然后用分割数据集有监督训练。textencoder使用clip,frozen住。
2024-06-27 17:58:09
455
原创 论文阅读Vlogger: Make Your Dream A Vlog
论文介绍了一个名为“Vlogger”的通用人工智能系统,它能够根据用户的描述生成分钟级的视频博客(vlog)。与通常只有几秒钟的短视频不同,vlog通常包含复杂的故事情节和多样化的场景,这对现有的视频生成方法来说是一个挑战。剧本(Script):使用LLM根据用户故事创建剧本,描述多个拍摄场景及其相应的拍摄时长。演员(Actor):根据剧本总结角色,并使用角色设计师生成这些角色的参考图像。
2024-06-27 11:34:38
935
1
原创 论文阅读KVQ: Kwai Video Quality Assessment for Short-form Videos
短视频格式、内容与长视频不同,需要引入新的质量评估方法。作者构建了一个新的用于质量评估的数据集,提出了新的质量评估方法。如下图所示,短视频有不同的格式、有模糊、噪声、编码等各种畸变。
2024-06-26 10:12:09
438
1
原创 论文阅读MVBench: A Comprehensive Multi-modal Video Understanding Benchmark
MVBench定义了20个视频理解任务,这些任务需要对视频的时间维度有深入理解,不能仅通过单个帧来解决。作者提出了一种从静态到动态的方法,将先前定义的静态图像任务转化为具有动态目标的视频任务,涵盖了从感知到认知的一系列时间理解技能。
2024-06-25 10:43:05
578
原创 多模态大模型综述《A Survey on Multimodal Large Language Models》
在单模态的基础上,加了新的模态,encoder后,通过mlp或者其他方式与text对齐,再输入大模型。如果需要生成新的膜套,可以再通过生成器。(此处与SD不太一样),chatGPT不会生成图片,可以对图片进行理解。LLM 辅助的视觉推理:利用 LLM 强大的内嵌知识与能力,并借助其他工具,设计各种视觉推理系统,解决各种现实问题。多模态幻觉:可以增加图像分辨率、提高数据质量,图像token表征、图像文本的对齐方式等。多模态思维链:将复杂的问题分解为较简单的子问题,然后分别解决并汇总。
2024-06-14 18:02:09
803
原创 安装mmcv报错ERROR: No matching distribution found for tomli>=2.0.1 (from yapf)
原因:tomli>=2.0.1 (from yapf)导致的版本冲突。再pip install yapf --user。
2024-06-13 11:15:54
1178
原创 Stable Diffusion原理
目前常采用的定量指标是FID(Fréchet inception distance)和CLIP score,其中FID可以衡量生成图像的逼真度(image fidelity),而CLIP score评测的是生成的图像与输入文本的一致性,其中FID越低越好,而CLIP score是越大越好。训练条件扩散模型时,往往会采用Classifier-Free Guidance(这里简称为CFG),同时训练一个无条件的扩散模型(以一定的比例是text为‘’),然后将两者加权,可以改善最终的生成质量。
2024-06-05 22:47:44
1166
原创 大模型微调:Lora
原理:不改变原始大模型参数,只加入一个类似残差分支,先降纬再升纬,因为模型是过参数化的,它们有更小的内在维度,模型主要依赖于这个低的内在维度(low intrinsic dimension)去做任务适配。优势:Lora的训练参数更少。
2024-05-28 10:08:10
323
原创 mono3D任务FCOS3D: Fully Convolutional One-Stage Monocular 3D Object Detection
在卡尔斯鲁厄采集的数据,包括雷达(64线束激光雷达)和摄像头(灰色+彩色)。每一个fpn层级预测的size需要满足一定的边界要求(具体来说,每层负责固定的边界目标即可)。FCOS3D参考的这个做法,但是2D目标是通过3D的外接矩形获取的,用于过滤每层无效的目标。focs2D方法based-area,将点优先分配给小目标(大目标的关注就少了呀);文章说参考2D直接预测中心点的4个offset是比较难的,简单的任务是看成2.5D个任务。创新点:利用之前的2D检测任务。将3D检测解耦为基于2D检测的多个子任务。
2024-05-22 18:16:22
742
原创 how-diffusion-models-work课程学习
扩散模型可以用于图像生成、图像编辑、音乐生成等领域。后续学习更好的sampling、stable diffusion参考:https://learn.deeplearning.ai/courses/diffusion-models/p=1。
2024-05-17 15:11:33
362
原创 论文阅读DRIVEVLM: The Convergence of Autonomous Driving and Large Vision-Language Models
DriveVLM是一种结合了自动驾驶技术和大型视觉语言模型(VLMs)的系统,旨在提高自动驾驶车辆在复杂和长尾场景下的理解能力和规划能力。该系统通过引入一种特殊的思维链(Chain-of-Thought,CoT)推理过程,将场景描述、场景分析和层级规划三个关键模块结合起来,以对应传统的感知、预测和规划流程。此外,DriveVLM-Dual作为一种混合系统,结合了DriveVLM和传统自动驾驶流程的优势,以弥补VLM在空间推理和计算需求方面的局限性。
2024-04-11 17:02:08
829
原创 大模型prompt技巧——思维链(Chain-of-Thought)
将问题分解为多个子问题,然后将子问题的答案加入到提示中,继续prompt,可以理解为更细化的多步step-by-step。1、Zero-shot、One-shot、Few-shot 与fintune。3、多数投票提高CoT性能——自洽性(Self-consistency)其次,思维链的应用领域是有限的。prompt的时候给出例子答案,然后再让模型回答。6、用大模型的CoT指导小模型,提升小模型的能力。多个思维链,然后取结果最多的作为最终的。5、将CoT加入fintinue中。低成本的增强已有大模型的能力。
2024-04-02 15:17:09
1335
原创 自动驾驶与大模型
平均一个prompt对应5.3个轨迹,可以用于数据挖掘。另外构建了基于prompt的轨迹预测任务(实际预测3Dbbox),提出了一个base方法prompTrack,将prompt与视觉query交互,在自己的数据集上取得了不错的效果。主要是基于nuscene生成了一个提示+实例的文本-实例对Nuprompt。
2024-04-02 14:39:59
164
原创 KeyError: ‘xxx is not in the models registry‘
2、使用sys和importlib,找到该类。1确认该模块是否实现。
2024-03-07 15:31:38
744
原创 python深度学习搭环境技巧
如anaconda3/envs/fuzzy/lib/python3.6/site-packages/onnx打包后复制到自己的环境下。训练时通过export PYTHONPATH=/path/env1:$PYTHONPATH来调整。有时候不需要安装依赖,使用已经安装的即可,之后再针对性的补缺少的依赖。公共环境放一个路径,其他放单独路径,可以完美隔离。加上参数–no-deps, 不按照依赖。
2024-01-10 15:42:43
472
原创 激光雷达入门
禾赛Pandar64 360° 旋转式 64 线远距激光雷达(主雷达)一径科技 ML-30s短距激光雷达(补盲雷达)Livox Horizon激光雷达(主雷达)速腾M1固态激光雷达(主雷达)
2023-11-14 15:28:58
125
原创 docker/ nvidia-docker
参考资料:https://www.cnblogs.com/zzcit/p/5845717.html本文档说明下列系统下安装nvidia-dockerUbuntu Trusty 14.04 (LTS) Ubuntu Xenial 16.04 (LTS)安装docker更新apt源更新安装包信息sudo apt-get updatesudo apt-get install ...
2023-11-13 17:10:23
575
1
原创 奇次坐标系
参考:为什么directX里表示三维坐标要建一个4*4的矩阵?- 云计算与数字孪生的回答 - 知乎。可以用一个4X4 的矩阵整合平移矩阵和旋转矩阵等,3X3 实现不了。3x3只能实现旋转变换。所以在自动驾驶中涉及多个坐标系的变化时都是用的奇次坐标。cv里面的透视变换也是 用的奇次坐标,仿射变换则不需要。奇次坐标为[x, y, z, 1]三维坐标为[x, y, z]
2023-10-26 18:17:26
106
原创 gerrit代码review使用基本方法
git checkout branch-dev(切换到开发分支,如果和origin名称一样会自动关联远程分支,可以用git branch -vv或者git log确认)参考:https://www.ruanyifeng.com/blog/2020/04/git-cherry-pick.html。如果有冲突,则进行修改后,git cherry-pick continue。.匹配了所有的文件,相当于git checkout all-files。git pull可以拉取所有分支的代码。
2023-10-13 10:45:44
1306
原创 DETR疑问与理解
视频解读:【DETR 论文精读【论文精读】】 https://www.bilibili.com/video/BV1GB4y1X72R/?因为实际gt有m个框,objects query为N个,实际上N>>m。作者增加一个no object类别,就是N对N的二分图匹配问题了,使用匈牙利匹配算法求解。用Transformer做object detection:DETR - 小小理工男的文章 - 知乎。因为detr使用的transformer天然适合处理序列到序列到模式,所以就算一种端到端的检测。
2023-08-16 09:38:59
177
原创 ROS入门核心教材重要节选
话题的通信是通过节点间发送ROS消息实现的。为了使节点A和节点B进行通信,两者必须发送和接收相同类型的消息。这意味着话题的类型是由发布在它上面消息的类型决定的。使用rostopic type命令可以查看发布在话题上的消息的类型。参考:http://wiki.ros.org/cn/ROS/Tutorials。节点可以理解为人工定义一个机器人模块,然后抽象成可执行文件。用来启动定义在launch(启动)文件中的节点。检查并回放bag数据。
2023-08-09 16:49:08
168
原创 transformer理解
transformer使用了自注意力机制,摒弃了RNN中的循环结构,所以加速了推理时间,但是也丢失了位置信息,所以需要位置编码记录位置信息。
2023-07-25 16:19:23
693
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅