自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(339)
  • 资源 (5)
  • 收藏
  • 关注

原创 LLM-RL 的探索困境

策略梯度RL算法作为一种可微代理优化方法,其天然倾向于 “在无法探索时缩小探索范围”,这导致将 RL 用于 LLM post training 时难以从本质上提升性能

2025-12-20 19:32:31 821

原创 论文理解 【LLM-RL】—— Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the

本文系统评估了 RLVR 在提升 LLM 推理能力方面的实际效果。发现当前RLVR方法主要提高了基座模型已有推理路径的采样效率,但并未创造新的推理模式。相比之下,蒸馏方法能真正扩展模型推理能力。研究呼吁开发新的RL范式,如改进探索机制、数据设计和反馈信号,以真正释放强化学习在扩展模型推理边界方面的潜力。

2025-12-14 20:34:36 1030 1

原创 Wasserstein 距离简介

Wasserstein距离是一种基于最优传输思想的概率分布度量方法,本文介绍了其定义、一维情况下基于CDF的计算方法和与CRPS损失的关系

2025-10-26 23:45:21 779

原创 论文理解 【LLM-回归】—— Decoding-based Regression

本文探讨了语言模型(LLM)在数值回归任务中的能力,证明了其可逼近任意一维概率密度的理论界,在数值范围大、噪声复杂或数据较少的情形相比传统点回归头和 Riemann 回归头有优势

2025-10-15 23:24:29 1011 4

原创 Hugging face Transformers(5)—— Datasets

datasets 是一个简单易用的数据集加载库,可方便地从本地或 HF hub 加载数据集,并完成数据划分、清洗、数据集和加载器构造等工作

2025-10-08 18:56:08 835

原创 论文理解【CV-对比学习】——【BYOL】Bootstrap Your Own Latent - A New Approach to Self-Supervised Learning

BYOL 是第一种无需负样本的自监督学习框架,其通过训练在线网络预测动量目标网络实现自蒸馏,借助预测器模块与目标网络的EMA更新机制稳定训练避免坍塌。该方法在ImageNet等基准取得SOTA并在下游任务表现优异,证明自监督不依赖对比即可学到强大表征

2025-09-19 05:14:19 1200

原创 小目标检测的尺寸极限

本文从统计检测理论出发,建立了小目标检测问题的数学模型。通过将检测问题形式化为二元假设检验,推导出基于KL散度的可检测性度量,为小目标检测限提供了量化依据。

2025-09-17 21:05:02 768

原创 论文理解【CV-对比学习】——【SimCLR】A Simple Framework for Contrastive Learning of Visual Representations

SimCLR 是一种简洁的自监督对比学习方法,通过强数据增强、非线性投影头与大批量训练,在无标签条件下学习判别性表示,在线性评估与下游任务中表现优异,大幅减少对人工标注的依赖。

2025-09-15 12:01:23 1038

原创 论文理解 【LLM-RL】——【EndoRM】Generalist Reward Models: Found Inside Large Language Models

本文指出,任何通过标准 “next token prediction” 训练得到的 LLM 内部已经隐含了一个通用奖励模型,其本质上等价于离线逆强化学习所得的奖励函数

2025-09-08 04:45:32 766

原创 论文理解【LLM-回归】—— 【RAFT】Better autoregressive regression with LLMs via regression-aware fine-tuning

本文提出了回归感知微调(RAFT)方法,通过对候选数值的概率加权期望直接优化均方误差,将回归损失直接融入解码式LLM的训练中,从而同时保留自回归预训练的优势并利用数值目标的特性,在多项自然语言回归任务中显著优于传统交叉熵微调和预测头方法

2025-08-17 19:26:51 1138

原创 论文理解【LLM-回归】—— 【NTL】Regress, Don‘t Guess--A Regression-like Loss on Number Tokens for Language Model

尽管 LLM 在文本生成方面表现出色,但它们缺乏对数字的自然归纳偏置,导致在涉及数值的任务中表现不佳。本文提出了一种新的损失函数——Number Token Loss (NTL),以增强语言模型在数值任务中的表现

2025-07-20 23:44:17 1377 2

原创 论文理解【Vision Transformer】—— 【Swin Transformer】Hierarchical Vision Transformer using Shifted Windows

Swin Transformer是VIT之后第二个极具影响力的Transformer-based视觉骨干网络,该模型通过引入图像数据的归纳偏置,将自注意力的计算复杂度降低为线性增长,且实现了多尺度特征提取,在识别、检测、分割等各类任务上取得了良好效果

2025-06-09 09:38:04 1108

原创 CleanGPT:清晰简洁的GPT模型训练框架

CleanGPT:一个清晰简洁,具备扩展性和教育性的GPT模型工程模板

2025-03-12 09:09:50 886 1

原创 VS2015 + OpenCV + OnnxRuntime-Cpp + YOLOv8 部署

本文详细介绍了使用 VS2015+OpenCV+OnnxRuntime+YOLOv8进行模型 C++ 部署的方法

2025-01-10 09:03:38 2195 6

原创 论文理解【LLM-NLP】——【SEQ*】Learn or Recall? Revisiting Incremental Learning with Pre-trained Language Mode

本文介绍 LLM 增量学习论文 SEQ*,它通过分析预训练语言模型(PLMs)在增量学习过程中发生遗忘的原因,仅对标准增强学习方法SEQ进行简单修改便达成了SOTA性能

2024-12-08 15:09:11 1486

原创 多维高斯分布的信息熵和KL散度计算

很多现实问题的原始特征分布都可以看作多维高斯分布,本文以数据特征服从多维高斯分布的多分类任务这一理想场景为例,从理论层面分析数据特征和分类问题难度的关系

2024-11-24 18:35:39 1553 5

原创 专家系统简介

本文对专家系统进行简单介绍,专家系统是机器学习流行之前曾经一度流行的一种智能方法,属于符号主义流派

2024-10-18 21:30:33 2420

原创 论文理解【Vision Transformer】—— 【MAE】Masked Autoencoders Are Scalable Vision Learners

本文介绍何凯明的经典之作MAE,它将BERT类模型的MLM自监督训练方法用到了ViT类CV模型上,通过设置大比例mask ratio和引入图像重建decoder的方法达成了良好的性能

2024-10-04 23:54:45 1370

原创 论文理解【LLM-agent】—— 【Reflexion】Language Agents with Verbal Reinforcement Learning

本文介绍 LLM agent 领域的经典方法 Reflexion,它通过引入 episodic memory 为 agent 提供长期记忆,在不微调模型的参数的同时实现了基于上下文的试错学习,性能提升显著

2024-09-02 12:44:21 3449

原创 论文速览【LLM-agent】—— 【ReAct】Synergizing Reasoning and Acting in Language Models

本文介绍LLM-agent领域的经典方法ReAct,它将LLM的自然语言推理能力和动作生成能力结合,使其同时适用于各类NLP和控制任务,并起到1+1>2的效果

2024-08-30 21:37:01 2442

原创 论文理解【Vision Transformer】—— 【VIT】An Image is Worth 16x16 Words: Transformers for Image Recognition

本文介绍经典的 ViT 论文,它是第一个将 Transformer 模型有效应用到较大规模 CV 任务上的工作,并且保持了 Transformer 模型本身的 Scaling 能力,启发了很多后续工作

2024-08-30 21:07:59 3970

原创 论文速览【LLM-OR】 —— 【ORLM】Training Large Language Models for Optimization Modeling

LLM 有能力将自然语言描述的工业场景问题建模为数学运筹优化问题,然后通过写代码调用经典求解器的方式加以解决。本文提出的 ORLM 方法主要关注如何合成数据来训练或微调这种领域模型

2024-08-27 20:00:54 3474 2

原创 论文理解【CV-目标检测】——【YOLO-V1】You Only Look Once: Unified, Real-Time Object Detection

首先简介了CV领域的主流任务,然后对最重要的目标检测算法之一YOLO-V1进行了详细介绍

2024-08-07 20:55:33 1644

原创 论文理解【LLM】—— TinyStories: How Small Can Language Models Be and Still Speak Coherent English?

本文在儿童故事这个非常垂直的领域数据上训练小规模语言模型(SLM),发现其具有和 LLM 相似的性能,相关分析对于理解 LMs 的能力很有参考意义

2024-07-25 21:36:41 2185 1

原创 论文理解【LLM】—— What Language Model Architecture and Pretraining Objective Work Best for Zero-Shot...

本文通过对模型架构、预训练目标、是否多任务微调等进行大规模排列组合实验,找到了 LLM 的最佳训练方案,得到的工程结论对于我们设计实验很有帮助

2024-07-25 00:28:19 1600 1

原创 Hugging face Transformers(4)—— Model

本文介绍 Hugging face transformers 库中 model 组件的用法

2024-07-09 02:25:41 834

原创 Hugging face Transformers(3)—— Tokenizer

本文介绍 Hugging Face Transformers 库中 Tokenizer 组件的基础用法

2024-07-06 22:18:41 1747

原创 Hugging face Transformers(2)—— Pipeline

本文介绍 Hugging face Transformers 库中 Pipeline 的基础用法,它可以帮我们快速调用预训练模型完成各类任务

2024-07-06 19:41:17 2169

原创 Hugging face Transformers(1)—— 基础介绍

Hugging face transformers 库简单介绍

2024-07-06 17:31:29 1475

原创 详解三种常用标准化 Batch Norm & Layer Norm & RMSNorm

详细说明 Batch Norm / Layer Norm / RMSNorm

2024-06-24 22:35:17 11105 15

原创 经典机器学习方法(7)—— 卷积神经网络CNN

本节介绍卷积神经网络CNN的基本原理,包括卷积层和汇聚层

2024-06-22 15:37:16 1346

原创 Pytorch入门(7)—— 梯度累加(Gradient Accumulation)

本文介绍梯度累加技巧及其pytorch实现。该技巧通过延迟参数更新时机,允许模型在显存容量有限时使用更大的等效batch size进行训练

2024-05-24 17:43:30 3807

原创 模型预测控制MPC(2)—— 无约束线性MPC

介绍无约束线性MPC的问题建模,求解方法和稳定性分析

2024-04-15 12:46:17 2247 11

原创 模型预测控制MPC(1)—— 基础概念

介绍模型预测的基本概念

2024-04-15 04:50:54 5135

原创 力扣面试经典150 —— 21-25题

力扣150题21~25

2024-03-20 10:12:48 1151

原创 【随笔】2048 创作纪念日

2048创作纪念日

2024-03-13 10:56:05 590

原创 力扣面试经典150 —— 16-20题

力扣150题16-20

2024-03-13 07:21:41 1326

原创 力扣面试经典150 —— 11-15题

力扣150题11-15

2024-03-09 07:26:03 1263

原创 力扣面试经典150 —— 6-10题

力扣150题6-10

2024-03-08 05:11:10 1114

原创 力扣面试经典150 —— 1-5题

力扣150题1-5

2024-02-23 12:15:17 1659

python情人节绘图程序

用python的turtle库实现的情人节绘图程序,包含随机绘制彩色爱心和一个蜡笔小新头像

2019-05-27

栈实现中缀表达式计算

中缀表达式的计算程序,手动实现运算数栈和运算符栈。

2019-02-11

TIM4C123G.zip

史上最全TM4C123G相关资料,包括手册、TIVA官方例程、keil工程模板、引脚分配表、函数手册、我自己写的几个实验等等。

2019-07-08

snakeDB.asm

详见:https://blog.csdn.net/wxc971231/article/details/104003616

2020-08-06

通信协议.cpp

在嵌入式编程时,常常会遇到需要做数据通信的场景。单片机往往只支持一次8位的数据传递,为了传输较长的数据类型,只能先在主机将数据拆分,再在从机重新组合,这里介绍一种带通讯协议的float型数据传输方法,具体见https://blog.csdn.net/wxc971231/article/details/90377296

2019-08-01

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除