- 博客(339)
- 资源 (5)
- 收藏
- 关注
原创 LLM-RL 的探索困境
策略梯度RL算法作为一种可微代理优化方法,其天然倾向于 “在无法探索时缩小探索范围”,这导致将 RL 用于 LLM post training 时难以从本质上提升性能
2025-12-20 19:32:31
821
原创 论文理解 【LLM-RL】—— Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the
本文系统评估了 RLVR 在提升 LLM 推理能力方面的实际效果。发现当前RLVR方法主要提高了基座模型已有推理路径的采样效率,但并未创造新的推理模式。相比之下,蒸馏方法能真正扩展模型推理能力。研究呼吁开发新的RL范式,如改进探索机制、数据设计和反馈信号,以真正释放强化学习在扩展模型推理边界方面的潜力。
2025-12-14 20:34:36
1030
1
原创 Wasserstein 距离简介
Wasserstein距离是一种基于最优传输思想的概率分布度量方法,本文介绍了其定义、一维情况下基于CDF的计算方法和与CRPS损失的关系
2025-10-26 23:45:21
778
原创 论文理解 【LLM-回归】—— Decoding-based Regression
本文探讨了语言模型(LLM)在数值回归任务中的能力,证明了其可逼近任意一维概率密度的理论界,在数值范围大、噪声复杂或数据较少的情形相比传统点回归头和 Riemann 回归头有优势
2025-10-15 23:24:29
1011
4
原创 Hugging face Transformers(5)—— Datasets
datasets 是一个简单易用的数据集加载库,可方便地从本地或 HF hub 加载数据集,并完成数据划分、清洗、数据集和加载器构造等工作
2025-10-08 18:56:08
835
原创 论文理解【CV-对比学习】——【BYOL】Bootstrap Your Own Latent - A New Approach to Self-Supervised Learning
BYOL 是第一种无需负样本的自监督学习框架,其通过训练在线网络预测动量目标网络实现自蒸馏,借助预测器模块与目标网络的EMA更新机制稳定训练避免坍塌。该方法在ImageNet等基准取得SOTA并在下游任务表现优异,证明自监督不依赖对比即可学到强大表征
2025-09-19 05:14:19
1200
原创 小目标检测的尺寸极限
本文从统计检测理论出发,建立了小目标检测问题的数学模型。通过将检测问题形式化为二元假设检验,推导出基于KL散度的可检测性度量,为小目标检测限提供了量化依据。
2025-09-17 21:05:02
768
原创 论文理解【CV-对比学习】——【SimCLR】A Simple Framework for Contrastive Learning of Visual Representations
SimCLR 是一种简洁的自监督对比学习方法,通过强数据增强、非线性投影头与大批量训练,在无标签条件下学习判别性表示,在线性评估与下游任务中表现优异,大幅减少对人工标注的依赖。
2025-09-15 12:01:23
1038
原创 论文理解 【LLM-RL】——【EndoRM】Generalist Reward Models: Found Inside Large Language Models
本文指出,任何通过标准 “next token prediction” 训练得到的 LLM 内部已经隐含了一个通用奖励模型,其本质上等价于离线逆强化学习所得的奖励函数
2025-09-08 04:45:32
766
原创 论文理解【LLM-回归】—— 【RAFT】Better autoregressive regression with LLMs via regression-aware fine-tuning
本文提出了回归感知微调(RAFT)方法,通过对候选数值的概率加权期望直接优化均方误差,将回归损失直接融入解码式LLM的训练中,从而同时保留自回归预训练的优势并利用数值目标的特性,在多项自然语言回归任务中显著优于传统交叉熵微调和预测头方法
2025-08-17 19:26:51
1137
原创 论文理解【LLM-回归】—— 【NTL】Regress, Don‘t Guess--A Regression-like Loss on Number Tokens for Language Model
尽管 LLM 在文本生成方面表现出色,但它们缺乏对数字的自然归纳偏置,导致在涉及数值的任务中表现不佳。本文提出了一种新的损失函数——Number Token Loss (NTL),以增强语言模型在数值任务中的表现
2025-07-20 23:44:17
1377
2
原创 论文理解【Vision Transformer】—— 【Swin Transformer】Hierarchical Vision Transformer using Shifted Windows
Swin Transformer是VIT之后第二个极具影响力的Transformer-based视觉骨干网络,该模型通过引入图像数据的归纳偏置,将自注意力的计算复杂度降低为线性增长,且实现了多尺度特征提取,在识别、检测、分割等各类任务上取得了良好效果
2025-06-09 09:38:04
1108
原创 VS2015 + OpenCV + OnnxRuntime-Cpp + YOLOv8 部署
本文详细介绍了使用 VS2015+OpenCV+OnnxRuntime+YOLOv8进行模型 C++ 部署的方法
2025-01-10 09:03:38
2195
6
原创 论文理解【LLM-NLP】——【SEQ*】Learn or Recall? Revisiting Incremental Learning with Pre-trained Language Mode
本文介绍 LLM 增量学习论文 SEQ*,它通过分析预训练语言模型(PLMs)在增量学习过程中发生遗忘的原因,仅对标准增强学习方法SEQ进行简单修改便达成了SOTA性能
2024-12-08 15:09:11
1486
原创 多维高斯分布的信息熵和KL散度计算
很多现实问题的原始特征分布都可以看作多维高斯分布,本文以数据特征服从多维高斯分布的多分类任务这一理想场景为例,从理论层面分析数据特征和分类问题难度的关系
2024-11-24 18:35:39
1552
5
原创 论文理解【Vision Transformer】—— 【MAE】Masked Autoencoders Are Scalable Vision Learners
本文介绍何凯明的经典之作MAE,它将BERT类模型的MLM自监督训练方法用到了ViT类CV模型上,通过设置大比例mask ratio和引入图像重建decoder的方法达成了良好的性能
2024-10-04 23:54:45
1368
原创 论文理解【LLM-agent】—— 【Reflexion】Language Agents with Verbal Reinforcement Learning
本文介绍 LLM agent 领域的经典方法 Reflexion,它通过引入 episodic memory 为 agent 提供长期记忆,在不微调模型的参数的同时实现了基于上下文的试错学习,性能提升显著
2024-09-02 12:44:21
3447
原创 论文速览【LLM-agent】—— 【ReAct】Synergizing Reasoning and Acting in Language Models
本文介绍LLM-agent领域的经典方法ReAct,它将LLM的自然语言推理能力和动作生成能力结合,使其同时适用于各类NLP和控制任务,并起到1+1>2的效果
2024-08-30 21:37:01
2442
原创 论文理解【Vision Transformer】—— 【VIT】An Image is Worth 16x16 Words: Transformers for Image Recognition
本文介绍经典的 ViT 论文,它是第一个将 Transformer 模型有效应用到较大规模 CV 任务上的工作,并且保持了 Transformer 模型本身的 Scaling 能力,启发了很多后续工作
2024-08-30 21:07:59
3970
原创 论文速览【LLM-OR】 —— 【ORLM】Training Large Language Models for Optimization Modeling
LLM 有能力将自然语言描述的工业场景问题建模为数学运筹优化问题,然后通过写代码调用经典求解器的方式加以解决。本文提出的 ORLM 方法主要关注如何合成数据来训练或微调这种领域模型
2024-08-27 20:00:54
3474
2
原创 论文理解【CV-目标检测】——【YOLO-V1】You Only Look Once: Unified, Real-Time Object Detection
首先简介了CV领域的主流任务,然后对最重要的目标检测算法之一YOLO-V1进行了详细介绍
2024-08-07 20:55:33
1644
原创 论文理解【LLM】—— TinyStories: How Small Can Language Models Be and Still Speak Coherent English?
本文在儿童故事这个非常垂直的领域数据上训练小规模语言模型(SLM),发现其具有和 LLM 相似的性能,相关分析对于理解 LMs 的能力很有参考意义
2024-07-25 21:36:41
2185
1
原创 论文理解【LLM】—— What Language Model Architecture and Pretraining Objective Work Best for Zero-Shot...
本文通过对模型架构、预训练目标、是否多任务微调等进行大规模排列组合实验,找到了 LLM 的最佳训练方案,得到的工程结论对于我们设计实验很有帮助
2024-07-25 00:28:19
1599
1
原创 Hugging face Transformers(4)—— Model
本文介绍 Hugging face transformers 库中 model 组件的用法
2024-07-09 02:25:41
834
原创 Hugging face Transformers(3)—— Tokenizer
本文介绍 Hugging Face Transformers 库中 Tokenizer 组件的基础用法
2024-07-06 22:18:41
1747
原创 Hugging face Transformers(2)—— Pipeline
本文介绍 Hugging face Transformers 库中 Pipeline 的基础用法,它可以帮我们快速调用预训练模型完成各类任务
2024-07-06 19:41:17
2167
原创 详解三种常用标准化 Batch Norm & Layer Norm & RMSNorm
详细说明 Batch Norm / Layer Norm / RMSNorm
2024-06-24 22:35:17
11098
15
原创 Pytorch入门(7)—— 梯度累加(Gradient Accumulation)
本文介绍梯度累加技巧及其pytorch实现。该技巧通过延迟参数更新时机,允许模型在显存容量有限时使用更大的等效batch size进行训练
2024-05-24 17:43:30
3807
通信协议.cpp
2019-08-01
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅