- 博客(80)
- 收藏
- 关注
原创 YOLOv8教程系列:一、使用自定义数据集训练YOLOv8模型(详细版教程,你只看一篇->调参攻略),包含环境搭建/数据准备/模型训练/预测/验证/导出等
YOLOv8教程系列:一、使用自定义数据集训练YOLOv8模型(详细版教程,你只看一篇->调参攻略),包含环境搭建/数据准备/模型训练/预测/验证/导出等
2023-01-13 15:30:31
242984
318
原创 【Docker实战】在容器内配置 SSH 服务:安装、Vim配置与连接验证(保姆级教程)
本文提供在Docker容器内配置SSH服务的详细教程,解决无法使用VS Code Remote和FileZilla的问题。步骤包括:1)安装SSH和Vim;2)配置SSH(设置root密码、修改监听端口和允许root登录);3)启动SSH服务并验证连接;4)提供常见问题解决方案。特别提醒容器重启后需手动重启SSH服务,并注意端口映射正确性。通过本教程可实现容器内SSH远程开发和文件传输功能。
2025-12-04 09:54:10
815
原创 【边缘端的深度思考】Jetson AGX Xavier 部署 ERNIE-4.5-21B-A3B-Thinking 全流程深度实战
本文详细介绍了在NVIDIA Jetson AGX Xavier边缘计算设备上部署百度ERNIE-4.5-21B大语言模型的完整流程。首先通过WSL2环境完成JetPack 5.1.x系统的刷机配置,包括USB透传、恢复模式进入等关键步骤。然后优化开发环境,包括切换性能模式、配置软件源、修复CUDA路径等。文章还提供了系统资源监控和Python隔离环境的搭建方法,为在边缘设备上高效运行MoE架构的大模型奠定了坚实基础。
2025-11-19 15:01:59
891
原创 【揭秘AI视线】可视化Qwen2.5-VL的视觉注意力机制
本文详细介绍了如何可视化Qwen2.5-VL多模态大模型的视觉注意力机制。通过"猴子补丁"技术动态修改模型内部注意力计算函数,捕获视觉编码器(ViT)在处理图像时的注意力权重。文章包含完整Python代码实现,从配置模型、自定义注意力前向传播函数,到循环处理指定层并保存注意力热图。该方法能直观展示模型对图像不同区域的关注程度,有助于理解多模态模型的工作原理,提升模型可解释性。技术要点包括ViT图像块处理、自注意力机制、注意力图生成以及运行时动态修改模型行为的技巧。
2025-08-27 09:57:49
1428
2
原创 基于ERNIE 4.5的多智能体协作的自动化视频舆情分析报告生成器
本文介绍了一个多智能体协作的自动化视频舆情分析系统,能够从非结构化视频中提取结构化洞察。该系统通过AI智能体团队协作,实现视频内容的规模化处理、深度多模态理解和智能提炼。以汽车行业为例,该系统可自动分析新车评测视频,生成包含量化数据和深度洞察的专业报告。文章详细展示了系统的技术实现,包括环境配置、核心库导入、预处理模块以及音频转录等功能,为商业智能提供了高效解决方案。
2025-08-22 11:15:13
1337
原创 【LLaMA-Factory 实战系列】四、API 篇 - 部署推理服务与批量调用实战
模型训练好了如何使用?本篇将教您如何将微调后的模型一键部署为兼容 OpenAI 格式的高性能 API 服务。我们将对比 huggingface、vllm 等不同推理后端的优劣,并提供一个完整的 Python 脚本,演示如何批量调用 API 处理文件夹中的全部图片。学完本篇,您将掌握将模型转化为生产力工具、融入实际应用的核心技能。
2025-06-25 16:27:20
2601
原创 【LLaMA-Factory 实战系列】三、命令行篇 - YAML 配置、高效微调与评估 Qwen2.5-VL
告别手动点击,拥抱专业高效!本篇将带您从 WebUI 迈向更强大、可复现的命令行工作流。我们将学习如何使用 .yaml 配置文件精确控制训练、评估与预测的全过程,实现实验的自动化与版本化管理。这是在服务器上进行高效开发、严谨复现研究成果,并迈向专业化模型工程的关键一环。
2025-06-24 11:04:21
2014
原创 【LLaMA-Factory 实战系列】二、WebUI 篇 - Qwen2.5-VL 多模态模型 LoRA 微调保姆级教程
想微调大模型却被复杂的代码劝退?本篇是您的“保姆级”入门教程!我们将借助 LLaMA-Factory 直观的 WebUI 图形化界面,以经典的宝可梦图文数据集为例,一步步引导您完成强大的 Qwen2.5-VL 多模态模型的 LoRA 微调。您将无需编写一行代码,轻松迈出模型定制的第一步,并直观理解学习率、批处理大小等核心参数的意义。
2025-06-23 16:02:25
5383
1
原创 【LLaMA-Factory 实战系列】一、数据准备篇 - 从文本到多模态的完整流程
万丈高楼平地起,优质数据是模型成功的基石。本篇将作为系列开端,手把手教您如何为 LLaMA-Factory 准备高质量的训练数据。我们将覆盖从简单的文本对话到复杂的图文混合数据集的完整制作流程,详细解析 ShareGPT 格式与 dataset_info.json 配置文件的每一个细节,为后续的模型微调打下最坚实的基础。
2025-06-20 10:04:35
2497
2
原创 【读书笔记】Vision Matters: Simple Visual Perturbations Can Boost Multimodal Math Reasoning
【读书笔记】Vision Matters: Simple Visual Perturbations Can Boost Multimodal Math Reasoning
2025-06-18 08:35:12
683
原创 【读书笔记】Advancing Multimodal Reasoning via Reinforcement Learning with Cold Start
【读书笔记】Advancing Multimodal Reasoning via Reinforcement Learning with Cold Start
2025-06-17 12:41:29
1007
原创 【读书笔记】More Thinking, Less Seeing? Assessing Amplified Hallucination in Multimodal Reasoning Models
【读书笔记】More Thinking, Less Seeing? Assessing Amplified Hallucination in Multimodal Reasoning Models
2025-06-17 08:17:03
998
原创 【Janus-Pro报告解读】Unified Multimodal Understanding and Generation with Data and Model Scaling
【Janus-Pro报告解读】Unified Multimodal Understanding and Generation with Data and Model Scaling
2025-02-06 16:22:03
1130
原创 【DeepSeek-VL2报告解读】Mixture-of-Experts Vision-Language Models for Advanced Multimodal Understanding
【DeepSeek-VL2报告解读】Mixture-of-Experts Vision-Language Models for Advanced Multimodal Understanding
2025-02-06 13:52:22
2591
原创 【图像分类实用脚本】数据可视化以及高数量类别截断
图像分类时,如果某个类别或者某些类别的数量远大于其他类别的话,模型在计算的时候,更倾向于拟合数量更多的类别;因此,观察类别数量以及对数据量多的类别进行截断是很有必要的。
2024-12-19 13:56:22
753
原创 【解决paddlemix报错】ModuleNotFoundError: No module named ‘paddlemix.models.audioldm2‘
【解决paddlemix报错】ModuleNotFoundError: No module named 'paddlemix.models.audioldm2'
2024-12-05 21:17:24
409
原创 【多模态论文分享】Rethinking Visual Prompting for Multimodal Large Language Models with External Knowledge
文章提出了一种新的视觉提示方法,旨在将细粒度的外部知识(来自实例分割和OCR模型的信息)直接嵌入到多模态大型语言模型(MLLMs)中,以增强其对图像中细粒度或局部化视觉元素的理解能力。
2024-12-02 13:47:18
1050
原创 【实战解析】YOLOv9全流程训练至优化终极指南
YOLOv9 引入了可编程梯度信息 (PGI) 和广义高效层聚合网络 (GELAN)等开创性技术,标志着实时目标检测领域的重大进步。该模型在效率、准确性和适应性方面都有显著提高,在 MS COCO 数据集上树立了新的标杆。
2024-04-08 10:36:27
8604
11
原创 【最佳实践】高效调优目标检测模型
在深入繁复的计算机视觉领域,目标检测无疑是一项挑战且结果至关重要的任务。它在无人驾驶、智能监控行业中扮演着核心角色,直接影响到系统的性能和可靠性。而在这个过程中,调整参数是实现高效、精准目标检测的关键步骤。
2024-04-02 17:51:35
3003
原创 【探索多模态视觉问答】数据集概览及特点分析
在计算机视觉和自然语言处理领域,视觉问答(VQA)是一个重要的任务,旨在让计算机理解图像内容并回答关于图像的问题。为了促进和评估多模态模型在视觉问答任务上的表现,研究人员构建了多个丰富的数据集。本文将介绍几个主要的视觉问答数据集,包括VQA v2.0、VizWiz-VQA、GQA、POPE、MM-VET、MME、MMBench和SEED-Bench。我们将分析这些数据集的特点、构建方式以及在评估多模态模型方面的作用,旨在为研究人员提供对多模态视觉问答数据集的全面认识。
2024-03-25 14:55:21
6012
1
原创 解决mmpretrain中的配置类别问题The number of subfolders doesn‘t match the number of specified classes
解决mmpretrain中的配置类别问题The number of subfolders doesn't match the number of specified classes
2023-09-20 17:21:55
1432
原创 YOLOv8教程系列:四、使用yolov8仓库训练自己的图像分类数据集(含推理预测)
YOLOv8教程系列:四、使用yolov8仓库训练自己的图像分类数据集(含推理预测)
2023-08-23 13:55:54
15610
21
原创 YOLOv8教程系列:三、K折交叉验证——让你的每一份标注数据都物尽其用(yolov8目标检测+k折交叉验证法)
YOLOv8教程系列:三、K折交叉验证——让你的每一份标注数据都物尽其用(yolov8目标检测+k折交叉验证法)
2023-08-22 16:55:29
7804
21
原创 YOLOv8教程系列:三、使用YOLOv8模型进行自定义数据集半自动标注
YOLOv8教程系列:三、使用YOLOv8模型进行自定义数据集半自动标注
2023-07-31 20:15:24
3019
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅