志豪Jeremy-CSDN博客

原创 LlamaFactory微调Qwen3-0.6B大模型实验整理——调一个人物领域专属的模型

这些问题可以来自公开资料、专业文献、论坛、教材等。：只加垂类数据集看看效果。：构造人物领域问题集。

2026-01-23 18:15:47 243

原创 LlamaFactory微调Qwen3-4B大模型实验整理——调一个舰船领域专属的模型

用 DeepSeek-32B 在军事舰船领域“当老师”，生成带推理的问答数据，然后“教” Qwen3-4B 学会这个领域的专业知识和推理方式，从而得到一个轻量、专业、会思考的垂域小模型。

2026-01-20 19:14:12 718 2

原创 LlamaFactory微调Qwen3-0.6B大模型踩坑实验整理——调一个xx领域专属的人物模型

补充自我认知数据、人物数据对Qwen3-0.6B进行垂类微调。无法回答自我认知问题，training_loss=1.97。回答错误，training_loss=1.86。可能的原因：epoch少了。可能的原因：学习率高了。无法回答自我认知问题。

2026-01-15 18:04:02 1052

原创 bert-base-chinese-ner微调总结——针对“领域实体微调”及“增量实体微调”任务

如果你未显式提供标签映射，但训练数据中包含完整的 BIO 标签（如 “B-PER”, “I-LOC” 等），训练脚本Hugging Face Transformers 的 Trainer通常会在数据预处理阶段自动收集所有唯一标签，按字典序或出现顺序排序后生成 label2id 和 id2label，并更新到模型配置中。：新的数据集必须包含之前的PER/LOC/ORG/FAC/EVENT的数据，并且模型应该加载之前的checkpoint（即已经微调过5类的那个模型）目标都是按照9:1切分，并且能包含6类别；

2026-01-13 16:09:12 621

原创模型训练心得

举个直观的例子：如果大 batch 还用小学习率，就相当于“拿着精准地图却一步挪一毫米”，明明能快速到终点，却硬生生拖慢训练节奏。batch size 增大， learning rate 也要增大，batch size 变小， learning rate 也要减小。举个直观的例子：你要走到山谷最低点（最优解），步长太小会走得慢，大batch 的梯度更稳定，能支撑更大的学习率步长；但步长太大直接就跨到对面山坡上了，离最低点反而更远。举个直观的例子：把训练数据集看作一本练习册，

2025-12-25 23:30:45 235

原创使用Minimind从0~1进行大模型预训练、SFT、RLHF

资源：Tesla v100 32GBx8。

2025-12-17 11:34:46 928

原创大模型服务由N卡适配曙光K100卡

N卡适配——>曙光K100曙光K100 是由中国中科曙光（Sugon）推出的一款高性能计算（HPC）或人工智能（AI）加速卡，主要用于数据中心、科学计算、AI训练与推理等场景。

2025-12-05 10:38:57 1129

原创 LlamaFactory微调Qwen3-0.6B大模型步骤

（注：localhost:8103 指的是程序启动机器自身的8103端口，云上的用户可能无法通过本地的笔记本电脑直接访问，需要找云厂商获取域名和端口号的一些配置关系进行配置）4、加载自定义数据集，符合alpaca格式，并在dataset_info.json中进行注册。2、下载LLaMA-Factory-man项目。创建qwen3_0.6B.yaml，里面填入。1、下载Qwen3-0.6B大模型。6、验证微调后的模型效果。3、验证模型推理的效果。

2025-12-02 19:03:54 582

原创上传本地代码至github

🎯 本地代码上传 GitHub 完整流程第 1 步：本地 Git 初始化（如果项目还未 Git 化）bash。

2025-11-29 21:10:21 422

原创记录一下windows系统安装wsl的步骤

*WSL（Windows Subsystem for Linux）**是微软开发的一项功能，允许你在 Windows 系统内部直接运行 Linux 环境，无需安装虚拟机或双系统。支持 GUI 应用（WSLg）：从 WSL2 开始，配合 WSLg，还能运行 Linux 图形界面程序（比如 GIMP、VS Code 等）。WSL2：基于轻量级虚拟机，运行真实的 Linux 内核，性能更强，支持完整系统调用，推荐用于开发、训练模型等任务。

2025-11-23 21:59:17 387

原创 Agentic AI 与 AI Agent的核心区别

一文读懂Agentic AI 与 AI Agent的核心区别

2025-10-28 23:00:54 266 1

原创 LLM和智能体的区别

大模型与AI Agent的关系，本质是AI技术从感知智能（理解语言）向认知智能（自主决策）与行动智能（落地执行）的进化。前者解决了“AI能听懂人话”的问题，后者突破了“AI能自己做事”的瓶颈。对于企业而言，理解二者的差异与协同逻辑，不仅是选择技术方案的前提，更是把握AI时代机遇的关键。

2025-10-28 22:39:13 165

原创使用MS-SWIF框架对大模型进行SFT微调

报错：ValueError: Bfloat16 is only supported on GPUs with compute capability of at least 8.0. Your Tesla V100S-PCIE-32GB GPU has compute capability 7.0. You can use float16 instead by explicitly setting the。

2025-09-05 10:56:18 1030

原创从 PPO、DPO 到 GRPO：万字长文详解大模型训练中的三大关键算法

写的太好了！！

2025-09-04 16:06:22 362

原创【配置 PyCharm 连接远程服务器进行开发和调试的完整流程】

1.PyCharm Professional（社区版不支持远程解释器）2、然后Add New_interpreter，选择on ssh；2.代码在本地目录里面，可以同步上传远程服务器。1、在本地使用PyCharm打开工程代码；3.宿主机上安装了conda 环境。3、然后即可进行debug；

2025-08-27 15:30:32 351

原创强化学习之美

介绍了强化学习的起源以及发展背景。

2022-10-19 22:45:49 358

原创 RL论文数据图绘制

记录RL论文数据图的绘制方法

2022-10-12 16:17:58 477 1

原创导出TensorBoard中的所有数据并平滑处理

将tensorboard生成的数据平滑处理

2022-10-10 20:06:15 1295

原创互联网知识点整理

整理了软件测试知识点

2022-09-08 16:31:08 1327

原创对多智能体强化学习算法MADDPG的理解

介绍了本人对MADDPG算法的理解

2022-07-10 20:06:53 5787 3

原创 tf.AUTO_REUSE的作用

记录tensorflow基本用法

2022-07-09 15:32:10 612

原创 word使用技巧

为了方便日后处理文档，总结offic软件使用技巧。

2022-07-09 14:17:15 218

原创深度学习中的标量、向量、矩阵和张量的区别

区别深度学习里面的标量、向量、矩阵、张量

2022-07-07 21:57:43 1743

原创元强化学习

元强化学习

2022-05-22 16:29:39 745

原创课程学习邂逅强化学习

一篇综述带你全面了解课程学习(Curriculum Learning)课程强化学习课程学习邂逅多智能体强化学习

2022-05-22 16:02:06 310

原创 Python导入自定义模块方法

添加链接描述

2022-05-03 14:22:50 732

原创 linux python解决中文字体Font family [‘sans-serif‘] not found. Falling back to DejaVu Sans

点击此处

2022-04-24 22:27:25 1770

原创 python路径拼接os.path.join()函数的用法

os.path.join()函数：用来连接路径名组件1.如果各组件名首字母不包含‘/’,则函数会自动加上。2.如果有一个组件是一个绝对路径，则在它之前的所有组件均会被舍弃。3.如果最后一个组件为空，则生成路径以一个‘/ ’分隔符结尾...

2022-04-22 20:46:36 3268

原创大规模多智能体强化学习资料整理

2020年，Multi-Agent RL领域的主流研究方向有哪些？【多智能体强化学习】新手入门算法论文大总结多智能体强化学习（持续更新）多智能体强化学习的几种Best Practice处理大规模多智能体强化学习的方方法：1）从小规模的系统开始学习，逐渐递进到大规模系统...

2022-03-09 21:13:02 1028

原创 pycharm快捷键

pycharm快捷键

2022-02-14 21:20:27 444

原创阿豪找工作

2021年《财富》世界500强揭晓！中国143家公司上榜2021世界500强2021中国500强选择国企、私企、外企，5年后的差距有多大？国企和央企的区别国企包括中央所属国有企业和地方所属国有企业，即央企和地方国企统称为国企。央企可以分为四大类：实业类金融类（四大行）文化类行政类（烟草）央企名录南京：中国航天科工集团8511研究所机关单位与事业单位的区别机关单位：机关单位，指国家机关，指从事国家管理和行使国家权力的机关。包括国家元首、权力机关、行政机关、审判机关、公安机关、检察

2022-01-17 17:22:38 432

原创 combat 仿真系统资料

扩展防空仿真系统（EADSIM）EADSIM培训教材Teledyne Brown Engineering公司书籍：大型仿真系统目前市面上能够使用的作战仿真系统

2021-11-07 18:40:01 1034

原创阿木实验室Prometheus项目实践总结

基础测试题

2021-11-05 16:35:11 2208

原创研究入门指南

研究入门指南知网引文网络使用指南

2021-10-29 10:40:27 167

原创高性能分布式执行框架——Ray

Ray简单介绍

2021-10-20 11:11:25 199

原创深度学习资料整理

简介课程目录课程笔记课程作业

2021-09-28 16:14:31 179

原创吴恩达Coursera深度学习课程

快速入门深度学习：网课+笔记+作业+代码一套流程基础肯定很扎实了

2021-09-28 16:04:04 230

原创连接远程服务器

VM16连接远程服务器

2021-09-01 15:20:19 116

原创 PX4控制方式总结

姿态控制的流程图，外环产生角速率，内环产生期望加速度（电机推力）。外环根据期望的位置、速度，计算输出相应的姿态信息。外环输出的姿态信息作为内环的输入，内环计算出期望的加速度。ROS-mavros-PX4加速度控制要写的飞控算法本来的输入是roll、pitch以及推进力，由于PX4不支持输入具体大小的推进力，改用三方向加速度（可用旋转矩阵进行变换）进行控制。但是PX4的setpoint_accel实际控制效果很差，github上也有人说它不可用。解决方案：参考阿木实验室的px4_command，使.

2021-08-28 17:20:53 2629 2

原创 gazebo/set_model_state话题通过位姿驱动无人机模型

ROS官方demoROS_gazebo 设置/获取模型状态 set_model_state/get_model_state自己可以写一个模拟无人机运动的脚本（订阅控制指令，输出无人机状态），输出的状态用gazebo/set_model_state更新无人机的位置。

2021-08-07 17:04:38 855

空空如也

空空如也