自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(71)
  • 收藏
  • 关注

原创 LlamaFactory微调Qwen3-0.6B大模型实验整理——调一个人物领域专属的模型

这些问题可以来自公开资料、专业文献、论坛、教材等。:只加垂类数据集看看效果。:构造人物领域问题集。

2026-01-23 18:15:47 243

原创 LlamaFactory微调Qwen3-4B大模型实验整理——调一个舰船领域专属的模型

用 DeepSeek-32B 在军事舰船领域“当老师”,生成带推理的问答数据,然后“教” Qwen3-4B 学会这个领域的专业知识和推理方式,从而得到一个轻量、专业、会思考的垂域小模型。

2026-01-20 19:14:12 718 2

原创 LlamaFactory微调Qwen3-0.6B大模型踩坑实验整理——调一个xx领域专属的人物模型

补充自我认知数据、人物数据对Qwen3-0.6B进行垂类微调。无法回答自我认知问题,training_loss=1.97。回答错误,training_loss=1.86。可能的原因:epoch少了。可能的原因:学习率高了。无法回答自我认知问题。

2026-01-15 18:04:02 1052

原创 bert-base-chinese-ner微调总结——针对“领域实体微调”及“增量实体微调”任务

如果你未显式提供标签映射,但训练数据中包含完整的 BIO 标签(如 “B-PER”, “I-LOC” 等),训练脚本Hugging Face Transformers 的 Trainer通常会在数据预处理阶段自动收集所有唯一标签,按字典序或出现顺序排序后生成 label2id 和 id2label,并更新到模型配置中。:新的数据集必须包含之前的PER/LOC/ORG/FAC/EVENT的数据,并且模型应该加载之前的checkpoint(即已经微调过5类的那个模型)目标都是按照9:1切分,并且能包含6类别;

2026-01-13 16:09:12 621

原创 模型训练心得

举个直观的例子:如果大 batch 还用小学习率,就相当于“拿着精准地图却一步挪一毫米”,明明能快速到终点,却硬生生拖慢训练节奏。batch size 增大, learning rate 也要增大,batch size 变小, learning rate 也要减小。举个直观的例子:你要走到山谷最低点(最优解),步长太小会走得慢,大batch 的梯度更稳定,能支撑更大的学习率步长;但步长太大直接就跨到对面山坡上了,离最低点反而更远。举个直观的例子:把训练数据集看作一本练习册,

2025-12-25 23:30:45 235

原创 使用Minimind从0~1进行大模型预训练、SFT、RLHF

资源:Tesla v100 32GBx8。

2025-12-17 11:34:46 928

原创 大模型服务由N卡适配曙光K100卡

N卡适配——>曙光K100曙光K100 是由中国中科曙光(Sugon)推出的一款高性能计算(HPC)或人工智能(AI)加速卡,主要用于数据中心、科学计算、AI训练与推理等场景。

2025-12-05 10:38:57 1129

原创 LlamaFactory微调Qwen3-0.6B大模型步骤

(注:localhost:8103 指的是程序启动机器自身的8103端口,云上的用户可能无法通过本地的笔记本电脑直接访问,需要找云厂商获取域名和端口号的一些配置关系进行配置)4、加载自定义数据集,符合alpaca格式,并在dataset_info.json中进行注册。2、下载LLaMA-Factory-man项目。创建qwen3_0.6B.yaml,里面填入。1、下载Qwen3-0.6B大模型。6、验证微调后的模型效果。3、验证模型推理的效果。

2025-12-02 19:03:54 582

原创 上传本地代码至github

🎯 本地代码上传 GitHub 完整流程第 1 步:本地 Git 初始化(如果项目还未 Git 化)bash。

2025-11-29 21:10:21 422

原创 记录一下windows系统安装wsl的步骤

*WSL(Windows Subsystem for Linux)**是微软开发的一项功能,允许你在 Windows 系统内部直接运行 Linux 环境,无需安装虚拟机或双系统。支持 GUI 应用(WSLg):从 WSL2 开始,配合 WSLg,还能运行 Linux 图形界面程序(比如 GIMP、VS Code 等)。WSL2:基于轻量级虚拟机,运行真实的 Linux 内核,性能更强,支持完整系统调用,推荐用于开发、训练模型等任务。

2025-11-23 21:59:17 387

原创 Agentic AI 与 AI Agent的核心区别

一文读懂Agentic AI 与 AI Agent的核心区别

2025-10-28 23:00:54 266 1

原创 LLM和智能体的区别

大模型与AI Agent的关系,本质是AI技术从感知智能(理解语言)向认知智能(自主决策)与行动智能(落地执行)的进化。前者解决了“AI能听懂人话”的问题,后者突破了“AI能自己做事”的瓶颈。对于企业而言,理解二者的差异与协同逻辑,不仅是选择技术方案的前提,更是把握AI时代机遇的关键。

2025-10-28 22:39:13 165

原创 使用MS-SWIF框架对大模型进行SFT微调

报错:ValueError: Bfloat16 is only supported on GPUs with compute capability of at least 8.0. Your Tesla V100S-PCIE-32GB GPU has compute capability 7.0. You can use float16 instead by explicitly setting the。

2025-09-05 10:56:18 1030

原创 从 PPO、DPO 到 GRPO:万字长文详解大模型训练中的三大关键算法

写的太好了!!

2025-09-04 16:06:22 362

原创 【配置 PyCharm 连接远程服务器进行开发和调试的完整流程】

1.PyCharm Professional(社区版不支持远程解释器)2、然后Add New_interpreter,选择on ssh;2.代码在本地目录里面,可以同步上传远程服务器。1、在本地使用PyCharm打开工程代码;3.宿主机上安装了conda 环境。3、然后即可进行debug;

2025-08-27 15:30:32 351

原创 强化学习之美

介绍了强化学习的起源以及发展背景。

2022-10-19 22:45:49 358

原创 RL论文数据图绘制

记录RL论文数据图的绘制方法

2022-10-12 16:17:58 477 1

原创 导出TensorBoard中的所有数据并平滑处理

将tensorboard生成的数据平滑处理

2022-10-10 20:06:15 1295

原创 互联网知识点整理

整理了软件测试知识点

2022-09-08 16:31:08 1327

原创 对多智能体强化学习算法MADDPG的理解

介绍了本人对MADDPG算法的理解

2022-07-10 20:06:53 5787 3

原创 tf.AUTO_REUSE的作用

记录tensorflow基本用法

2022-07-09 15:32:10 612

原创 word使用技巧

为了方便日后处理文档,总结offic软件使用技巧。

2022-07-09 14:17:15 218

原创 深度学习中的标量、向量、矩阵和张量的区别

区别深度学习里面的标量、向量、矩阵、张量

2022-07-07 21:57:43 1743

原创 元强化学习

元强化学习

2022-05-22 16:29:39 745

原创 课程学习邂逅强化学习

一篇综述带你全面了解课程学习(Curriculum Learning)课程强化学习课程学习邂逅多智能体强化学习

2022-05-22 16:02:06 310

原创 Python导入自定义模块方法

添加链接描述

2022-05-03 14:22:50 732

原创 linux python解决中文字体Font family [‘sans-serif‘] not found. Falling back to DejaVu Sans

点击此处

2022-04-24 22:27:25 1770

原创 python路径拼接os.path.join()函数的用法

os.path.join()函数:用来连接路径名组件1.如果各组件名首字母不包含‘/’,则函数会自动加上。2.如果有一个组件是一个绝对路径,则在它之前的所有组件均会被舍弃。3.如果最后一个组件为空,则生成路径以一个‘/ ’分隔符结尾...

2022-04-22 20:46:36 3268

原创 大规模多智能体强化学习资料整理

2020年,Multi-Agent RL领域的主流研究方向有哪些?【多智能体强化学习】新手入门算法论文大总结多智能体强化学习(持续更新)多智能体强化学习的几种Best Practice处理大规模多智能体强化学习的方方法:1)从小规模的系统开始学习,逐渐递进到大规模系统...

2022-03-09 21:13:02 1028

原创 pycharm快捷键

pycharm快捷键

2022-02-14 21:20:27 444

原创 阿豪找工作

2021年《财富》世界500强揭晓!中国143家公司上榜2021世界500强2021中国500强选择国企、私企、外企,5年后的差距有多大?国企和央企的区别国企包括中央所属国有企业和地方所属国有企业,即央企和地方国企统称为国企。央企可以分为四大类:实业类金融类(四大行)文化类行政类(烟草)央企名录南京:中国航天科工集团8511研究所机关单位与事业单位的区别机关单位:机关单位,指国家机关,指从事国家管理和行使国家权力的机关。包括国家元首、权力机关、行政机关、审判机关、公安机关、检察

2022-01-17 17:22:38 432

原创 combat 仿真系统资料

扩展防空仿真系统(EADSIM)EADSIM培训教材Teledyne Brown Engineering公司书籍:大型仿真系统目前市面上能够使用的作战仿真系统

2021-11-07 18:40:01 1034

原创 阿木实验室Prometheus项目实践总结

基础测试题

2021-11-05 16:35:11 2208

原创 研究入门指南

研究入门指南知网引文网络使用指南

2021-10-29 10:40:27 167

原创 高性能分布式执行框架——Ray

Ray简单介绍

2021-10-20 11:11:25 199

原创 深度学习资料整理

简介课程目录课程笔记课程作业

2021-09-28 16:14:31 179

原创 吴恩达Coursera深度学习课程

快速入门深度学习:网课+笔记+作业+代码 一套流程基础肯定很扎实了

2021-09-28 16:04:04 230

原创 连接远程服务器

VM16连接远程服务器

2021-09-01 15:20:19 116

原创 PX4控制方式总结

姿态控制的流程图,外环产生角速率,内环产生期望加速度(电机推力)。外环根据期望的位置、速度,计算输出相应的姿态信息。外环输出的姿态信息作为内环的输入,内环计算出期望的加速度。ROS-mavros-PX4加速度控制要写的飞控算法本来的输入是roll、pitch以及推进力,由于PX4不支持输入具体大小的推进力,改用三方向加速度(可用旋转矩阵进行变换)进行控制。但是PX4的setpoint_accel实际控制效果很差,github上也有人说它不可用。解决方案:参考阿木实验室的px4_command,使.

2021-08-28 17:20:53 2629 2

原创 gazebo/set_model_state话题通过位姿驱动无人机模型

ROS官方demoROS_gazebo 设置/获取模型状态 set_model_state/get_model_state自己可以写一个模拟无人机运动的脚本(订阅控制指令,输出无人机状态),输出的状态用gazebo/set_model_state更新无人机的位置。

2021-08-07 17:04:38 855

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除