云端FFF-CSDN博客

原创论文理解【LLM-OR】——【LLMOPT】Learning to Define and Solve General Optimization Problems from Scratch

针对 LLM-OR 任务，传统端到端直接生成方法的准确性与问题类型泛化受限；LLMOPT 引入五要素通用表述 + 多指令微调 + KTO 对齐 + 自动测试自纠错的学习式流程，从自然语言描述出发更稳健地定义并求解多类优化问题，在六个真实数据集上取得平均 11.08% 的准确率提升

2026-02-25 22:48:13 553

原创论文理解【LLM-OR】——【OptiMUS】Scalable Optimization Modeling with (MI)LP Solvers and Large Language Models

OptiMUS 把“自然语言→优化建模与求解”从单次生成改造成“结构化问题 + 多智能体协作 + 连接图检索”的模块化流程，并在更长更难的数据集上验证了这种结构化方法相对端到端 prompting 的优

2026-02-22 12:40:44 499

原创论文理解【LLM-OR】——【SIRL】Solver-Informed RL: Grounding Large Language Models for Authentic Optimization M

本文提出第一种针对基于 LLM 的 OR 问题建模和求解任务的 RLVR 方法，其基于求解器得到可验证奖励，设计了 Partial KL 强化目标函数和两阶段奖励课程训练方法，达成了 SOTA 性能

2026-02-10 05:51:58 592

原创论文理解【LLM-Clarification】—— 【QDrawer】Asking the Right Question at the Right Time: Human and Model Unce

本文基于 CoDraw 任务对 LLM 澄清提问的触发方式进行探索，发现模型内部不确定性与人类澄清决策相关性弱，使用不确定性阈值触发澄清提问相比模仿人类提问时机，性能和计算效率都更好

2026-02-05 20:46:21 531

原创强化学习拾遗 —— 策略梯度定理的两种详细推导

本文详细探讨了策略梯度定理的两种推导方法，说明了两种策略梯度适用的算法，以及二者间的转换关系

2026-02-02 03:48:14 649

原创论文理解【LLM-OR】——【Step-Opt】Training LLMs for Optimization Modeling via Iterative Data Synthesis and

本文提出 Step-Opt-Instruct 方法，针对用 LLM 做 OR 问题求解任务，用迭代问题生成 + 分步验证机制实习更可靠的训练数据合成，从而微调开源 LLM 得到 Step-Opt。在多个 OR 建模基准提升性能，尤其在复杂问题上提升更明显

2026-01-31 20:16:53 626

原创论文理解【LLM-OR】—— 【PaMOP】Guiding Large Language Models in Modeling Optimization Problem

针对 LLM 求解运筹优化任务，PaMOP 通过约束划分树分离子问题，实现复杂优化问题的分块建模，并结合求解器反馈与反向翻译一致性检查迭代纠错，降低子任务复杂度，提升可执行率与建模准确性。

2026-01-25 20:05:54 827

原创论文理解【LLM-OR】——【OptiTree】Hierarchical thoughts generation with tree search for LLM optimization model

使用 LLM 对运筹优化问题（OR Problem）建模时，传统固定步骤分解在复杂数学结构下准确率低，本文提出 OptiTree：基于“子问题层级建模树”的树搜索检索，自适应地将原问题分解为一串更简单的子问题，并递归整合各子问题的高层建模思路形成全局指导，从而显著提升建模准确率

2025-12-29 19:40:21 843

原创 LLM-RL 的探索困境

策略梯度RL算法作为一种可微代理优化方法，其天然倾向于 “在无法探索时缩小探索范围”，这导致将 RL 用于 LLM post training 时难以从本质上提升性能

2025-12-20 19:32:31 875

原创论文理解【LLM-RL】—— Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the

本文系统评估了 RLVR 在提升 LLM 推理能力方面的实际效果。发现当前RLVR方法主要提高了基座模型已有推理路径的采样效率，但并未创造新的推理模式。相比之下，蒸馏方法能真正扩展模型推理能力。研究呼吁开发新的RL范式，如改进探索机制、数据设计和反馈信号，以真正释放强化学习在扩展模型推理边界方面的潜力。

2025-12-14 20:34:36 1146 5

原创 Wasserstein 距离简介

Wasserstein距离是一种基于最优传输思想的概率分布度量方法，本文介绍了其定义、一维情况下基于CDF的计算方法和与CRPS损失的关系

2025-10-26 23:45:21 1024

原创论文理解【LLM-回归】—— Decoding-based Regression

本文探讨了语言模型（LLM）在数值回归任务中的能力，证明了其可逼近任意一维概率密度的理论界，在数值范围大、噪声复杂或数据较少的情形相比传统点回归头和 Riemann 回归头有优势

2025-10-15 23:24:29 1050 4

原创 Hugging face Transformers（5）—— Datasets

datasets 是一个简单易用的数据集加载库，可方便地从本地或 HF hub 加载数据集，并完成数据划分、清洗、数据集和加载器构造等工作

2025-10-08 18:56:08 902

原创论文理解【CV-对比学习】——【BYOL】Bootstrap Your Own Latent - A New Approach to Self-Supervised Learning

BYOL 是第一种无需负样本的自监督学习框架，其通过训练在线网络预测动量目标网络实现自蒸馏，借助预测器模块与目标网络的EMA更新机制稳定训练避免坍塌。该方法在ImageNet等基准取得SOTA并在下游任务表现优异，证明自监督不依赖对比即可学到强大表征

2025-09-19 05:14:19 1305

原创小目标检测的尺寸极限

本文从统计检测理论出发，建立了小目标检测问题的数学模型。通过将检测问题形式化为二元假设检验，推导出基于KL散度的可检测性度量，为小目标检测限提供了量化依据。

2025-09-17 21:05:02 803

原创论文理解【CV-对比学习】——【SimCLR】A Simple Framework for Contrastive Learning of Visual Representations

SimCLR 是一种简洁的自监督对比学习方法，通过强数据增强、非线性投影头与大批量训练，在无标签条件下学习判别性表示，在线性评估与下游任务中表现优异，大幅减少对人工标注的依赖。

2025-09-15 12:01:23 1146

原创论文理解【LLM-RL】——【EndoRM】Generalist Reward Models: Found Inside Large Language Models

本文指出，任何通过标准 “next token prediction” 训练得到的 LLM 内部已经隐含了一个通用奖励模型，其本质上等价于离线逆强化学习所得的奖励函数

2025-09-08 04:45:32 857

原创论文理解【LLM-回归】—— 【RAFT】Better autoregressive regression with LLMs via regression-aware fine-tuning

本文提出了回归感知微调（RAFT）方法，通过对候选数值的概率加权期望直接优化均方误差，将回归损失直接融入解码式LLM的训练中，从而同时保留自回归预训练的优势并利用数值目标的特性，在多项自然语言回归任务中显著优于传统交叉熵微调和预测头方法

2025-08-17 19:26:51 1200

原创论文理解【LLM-回归】—— 【NTL】Regress, Don‘t Guess--A Regression-like Loss on Number Tokens for Language Model

尽管 LLM 在文本生成方面表现出色，但它们缺乏对数字的自然归纳偏置，导致在涉及数值的任务中表现不佳。本文提出了一种新的损失函数——Number Token Loss (NTL)，以增强语言模型在数值任务中的表现

2025-07-20 23:44:17 1454 2

原创论文理解【Vision Transformer】—— 【Swin Transformer】Hierarchical Vision Transformer using Shifted Windows

Swin Transformer是VIT之后第二个极具影响力的Transformer-based视觉骨干网络，该模型通过引入图像数据的归纳偏置，将自注意力的计算复杂度降低为线性增长，且实现了多尺度特征提取，在识别、检测、分割等各类任务上取得了良好效果

2025-06-09 09:38:04 1189

原创 CleanGPT：清晰简洁的GPT模型训练框架

CleanGPT：一个清晰简洁，具备扩展性和教育性的GPT模型工程模板

2025-03-12 09:09:50 917 1

原创 VS2015 + OpenCV + OnnxRuntime-Cpp + YOLOv8 部署

本文详细介绍了使用 VS2015+OpenCV+OnnxRuntime+YOLOv8进行模型 C++ 部署的方法

2025-01-10 09:03:38 2308 6

原创论文理解【LLM-NLP】——【SEQ*】Learn or Recall? Revisiting Incremental Learning with Pre-trained Language Mode

本文介绍 LLM 增量学习论文 SEQ*，它通过分析预训练语言模型(PLMs)在增量学习过程中发生遗忘的原因，仅对标准增强学习方法SEQ进行简单修改便达成了SOTA性能

2024-12-08 15:09:11 1530

原创多维高斯分布的信息熵和KL散度计算

很多现实问题的原始特征分布都可以看作多维高斯分布，本文以数据特征服从多维高斯分布的多分类任务这一理想场景为例，从理论层面分析数据特征和分类问题难度的关系

2024-11-24 18:35:39 1636 5

原创专家系统简介

本文对专家系统进行简单介绍，专家系统是机器学习流行之前曾经一度流行的一种智能方法，属于符号主义流派

2024-10-18 21:30:33 2610

原创论文理解【Vision Transformer】—— 【MAE】Masked Autoencoders Are Scalable Vision Learners

本文介绍何凯明的经典之作MAE，它将BERT类模型的MLM自监督训练方法用到了ViT类CV模型上，通过设置大比例mask ratio和引入图像重建decoder的方法达成了良好的性能

2024-10-04 23:54:45 1444

原创论文理解【LLM-agent】—— 【Reflexion】Language Agents with Verbal Reinforcement Learning

本文介绍 LLM agent 领域的经典方法 Reflexion，它通过引入 episodic memory 为 agent 提供长期记忆，在不微调模型的参数的同时实现了基于上下文的试错学习，性能提升显著

2024-09-02 12:44:21 3677

原创论文速览【LLM-agent】—— 【ReAct】Synergizing Reasoning and Acting in Language Models

本文介绍LLM-agent领域的经典方法ReAct，它将LLM的自然语言推理能力和动作生成能力结合，使其同时适用于各类NLP和控制任务，并起到1+1>2的效果

2024-08-30 21:37:01 2544

原创论文理解【Vision Transformer】—— 【VIT】An Image is Worth 16x16 Words: Transformers for Image Recognition

本文介绍经典的 ViT 论文，它是第一个将 Transformer 模型有效应用到较大规模 CV 任务上的工作，并且保持了 Transformer 模型本身的 Scaling 能力，启发了很多后续工作

2024-08-30 21:07:59 4056

原创论文速览【LLM-OR】 —— 【ORLM】Training Large Language Models for Optimization Modeling

LLM 有能力将自然语言描述的工业场景问题建模为数学运筹优化问题，然后通过写代码调用经典求解器的方式加以解决。本文提出的 ORLM 方法主要关注如何合成数据来训练或微调这种领域模型

2024-08-27 20:00:54 3701 2

原创论文理解【CV-目标检测】——【YOLO-V1】You Only Look Once: Unified, Real-Time Object Detection

首先简介了CV领域的主流任务，然后对最重要的目标检测算法之一YOLO-V1进行了详细介绍

2024-08-07 20:55:33 1706

原创论文理解【LLM】—— TinyStories: How Small Can Language Models Be and Still Speak Coherent English?

本文在儿童故事这个非常垂直的领域数据上训练小规模语言模型（SLM），发现其具有和 LLM 相似的性能，相关分析对于理解 LMs 的能力很有参考意义

2024-07-25 21:36:41 2344 1

原创论文理解【LLM】—— What Language Model Architecture and Pretraining Objective Work Best for Zero-Shot...

本文通过对模型架构、预训练目标、是否多任务微调等进行大规模排列组合实验，找到了 LLM 的最佳训练方案，得到的工程结论对于我们设计实验很有帮助

2024-07-25 00:28:19 1651 1

原创 Hugging face Transformers（4）—— Model

本文介绍 Hugging face transformers 库中 model 组件的用法

2024-07-09 02:25:41 949

原创 Hugging face Transformers（3）—— Tokenizer

本文介绍 Hugging Face Transformers 库中 Tokenizer 组件的基础用法

2024-07-06 22:18:41 1844

原创 Hugging face Transformers（2）—— Pipeline

本文介绍 Hugging face Transformers 库中 Pipeline 的基础用法，它可以帮我们快速调用预训练模型完成各类任务

2024-07-06 19:41:17 2260

原创 Hugging face Transformers（1）—— 基础介绍

Hugging face transformers 库简单介绍

2024-07-06 17:31:29 1522

原创详解三种常用标准化 Batch Norm & Layer Norm & RMSNorm

详细说明 Batch Norm / Layer Norm / RMSNorm

2024-06-24 22:35:17 11892 15

原创经典机器学习方法（7）—— 卷积神经网络CNN

本节介绍卷积神经网络CNN的基本原理，包括卷积层和汇聚层

2024-06-22 15:37:16 1382

原创 Pytorch入门（7）—— 梯度累加（Gradient Accumulation）

本文介绍梯度累加技巧及其pytorch实现。该技巧通过延迟参数更新时机，允许模型在显存容量有限时使用更大的等效batch size进行训练

2024-05-24 17:43:30 3919

python情人节绘图程序

用python的turtle库实现的情人节绘图程序，包含随机绘制彩色爱心和一个蜡笔小新头像

2019-05-27

栈实现中缀表达式计算

中缀表达式的计算程序，手动实现运算数栈和运算符栈。

2019-02-11

TIM4C123G.zip

史上最全TM4C123G相关资料，包括手册、TIVA官方例程、keil工程模板、引脚分配表、函数手册、我自己写的几个实验等等。

2019-07-08

snakeDB.asm

详见：https://blog.csdn.net/wxc971231/article/details/104003616

2020-08-06

通信协议.cpp

在嵌入式编程时，常常会遇到需要做数据通信的场景。单片机往往只支持一次8位的数据传递，为了传输较长的数据类型，只能先在主机将数据拆分，再在从机重新组合，这里介绍一种带通讯协议的float型数据传输方法，具体见https://blog.csdn.net/wxc971231/article/details/90377296

2019-08-01

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人