糖葫芦君-CSDN博客

原创 17-Language Modeling with Gated Convolutional Networks

本文提出了gated CNN 网络，gated linear units通过提供一个线性通道降低了梯度消失问题，并且保持非线性能力。经典CNN是处理空间问题（如图像）的利器。文中的门控卷积方法（GCNN）是专门为处理时间序列问题（如自然语言）而设计的CNN变体。它通过因果卷积来保证顺序性，通过门控机制来提升模型能力和训练稳定性，从而在语言建模等任务上达到甚至超过了RNN/LSTM的性能，同时获得了巨大的速度优势。简而言之，GCNN是CNN的思想在序列建模领域的一次成功改造和专门化应用。H%3Df*w。

2025-09-28 11:37:32 801

原创 One-Rec semantic-ID表征

本文提出了一种改进的Tokenizer方法，通过整合协同信号和多模态特征，利用RQ-Kmeans生成高质量分层语义ID。创新点包括：1）采用多模态输入（视频标题、标签、ASR等）生成token向量；2）引入双重训练目标（项目间对比损失和描述文本损失）；3）使用残差量化生成从粗到细的语义标识符。实验表明，相比RQ-VAE，RQ-Kmeans重建损失降低25.18%，码本利用率达100%，标记分布熵显著提升。该方法在参数效率、通信开销和序列处理能力方面具有优势，适用于大规模推荐系统。

2025-09-19 17:17:09 776

原创 log_softmax高效实现（HF-GRPO）

ziz是输入的 logits 向量，形状为(C,)，CC 是类别数（i是目标索引（要计算其对数概率的那个类别的位置）zi是 logits 向量中第 i 个位置的值是 logits 向量的 log-sum-exp（LSE）

2025-09-10 10:05:44 432

原创激活函数relu为什么有效？

这是ReLU最核心的优势。：在ReLU之前，常用的激活函数是Sigmoid和Tanh。它们的梯度在输入值很大或很小时会趋近于0（饱和区）。：在训练深度神经网络时，我们通过反向传播算法来更新权重，这个更新量依赖于从输出层反向传播回来的梯度。当梯度经过多个使用Sigmoid/Tanh的层时，多个小于1的小梯度连续相乘，会导致传到前面层的梯度变得极小甚至消失。这意味着前面层的权重几乎得不到更新，网络无法有效学习。：ReLU的导数非常简单：当输入 > 0 时，导数为1；当输入 <= 0 时，导数为0。

2025-09-06 15:18:32 894

原创 from torch._C import * # noqa: F403 ImportError: libtorch_cpu.so: undefined symbol: iJIT_NotifyEven

你安装的 PyTorch 版本很可能是为特定的 CUDA 版本（例如 CUDA 12.1）预编译的，但你的系统中安装的 CUDA 运行时库（特别是。：通过某些渠道（如特定的 pip 源）安装的 PyTorch 可能其预编译的 CUDA 版本与你系统中的 CUDA 驱动或运行时库版本冲突5。首先，在你的 Conda 环境或系统中有多个 CUDA 安装时，需要找到 PyTorch 包自带或者 Conda 安装的。有时，错误是因为系统找到了错误版本的库。），导致程序找到了错误版本的 CUDA 库2。

2025-08-29 16:55:42 645

原创 cross attention huggingface代码理解

Self Attention 是 “序列自关联”，用于挖掘单一输入内部的结构信息；Cross Attention 是 “序列间关联”，用于实现两个不同输入之间的信息交互。在 Transformer 等模型中，两者通常配合使用：编码器用 Self Attention 处理源序列，解码器用 Cross Attention 关联编码器的输出，最终实现对源信息的 “理解” 和目标序列的 “生成”。

2025-08-27 18:59:55 712

原创 19-youtube-Unbiased LambdaMART: An Unbiased PairwiseLearning-to-Rank Algorithm

通过建模，点击概率与相关性与位置之间的关系，将IPW应用到pairwise的排序算法中，来消除位置偏差。

2025-08-25 17:55:00 393

原创美团-位置消偏-Deep Position-wise Interaction Network for CTR Prediction

本文argue之前的位置消偏方法没有考虑上下文信息与位置之间的交互信息，本文利用用户历史序列信息来建模每个位置k的上下文感知注意力分数b_k；再基于上下文context，b_k来建模不同位置之间的交互，得到每个位置k的带有request信息的表征，与item的表征拼接，得到每个item在每个位置的ctr得分。

2025-08-20 11:02:41 698

原创 Yotube消除位置偏差：Recommending What Video to Watch Next: A Multi-task Ranking System

然而，隐式反馈存在偏差，因为它是由现有排序系统生成的。具体来说，我们训练一个浅层塔网络（shallow tower），该网络使用那些会导致选择偏差的特征作为输入（例如，用于建模位置偏差的位置特征（position feature））。做法：增加shallow tower：浅塔接收与选择偏差相关的输入，例如当前系统决定的排名顺序，并输出一个标量作为偏差项，用于主模型的最终预测。因此，为了消除位置偏差，我们可以训练一个使用位置作为输入特征的模型，并在服务时将位置特征固定设置为 1（或其他固定值，如缺失值）。

2025-08-19 21:20:05 717

原创 torch.nn.Conv1d详解

classstride=1padding=0dilation=1groups=1bias=Truedtype=None在最简单的情况下，输入大小为、输出大小为的该层的输出值可以精确描述为：⋆是有效互相关运算符。N是批量大小。C表示通道数。L是信号序列的长度。

2025-08-18 18:07:35 905

原创 Spearman 相关系数与 Pearson 相关系数的区别

Pearson与Spearman相关系数的核心区别在于：Pearson衡量线性相关，基于原始数据值，要求变量正态分布且对异常值敏感；Spearman检测单调相关（线性或非线性），基于数据排名，适用于有序数据和非正态分布，对异常值稳健。Pearson（范围[-1,1]）适合精确测量线性关系，Spearman（同范围）更通用，尤其当数据存在异常值或非线性单调关系时。实际应用中，建议先使用Spearman进行稳健分析，若显示强相关且数据质量好，再用Pearson评估线性强度。两者均反映相关性而非因果性，需结合可视

2025-08-06 11:15:41 962

原创玻尔兹曼分布与玻尔兹曼探索

在统计力学和数学中，玻尔兹曼分布（英语：Boltzmann distribution），或称吉布斯分布（英语：Gibbs distribution）[1]，是一种概率分布或概率测度，它给出一个系统处于某种状态的概率，是该状态的能量及温度的函数。该分布以下列形式表示：其中pi是系统处于状态i的概率，εi是该状态的能量，kT为玻尔兹曼常数k和热力学温度T的乘积。

2025-08-01 17:01:31 1006

原创 GRPO理解-DeepSeekMath

给出一个。

2025-07-18 17:34:36 1008

原创 Beyond Pairwise Learning-To-Rank At Airbnb

对一个排序算法而言，存在三个根本性要求：它应能扩展以处理海量物品；应能根据物品的效用对其进行精确排序；并且应对物品施加一个全序（total order）以保证逻辑一致性。然而，这里存在一个关键难题——没有任何算法能同时满足所有这三个要求。我们将这种局限性称为排序算法的 SAT 定理。面对这种困境，我们如何设计一个满足用户需求的实用系统？我们在 Airbnb 当前的工作为此提供了答案，并成功部署了一个可大规模运行的解决方案。

2025-07-14 16:05:21 386

原创 Actor-Critic重要性采样原理

在强化学习中，主要用于解决中的分布偏移问题。其核心应用场景是通过收集的样本，来估计的期望值。

2025-07-13 23:10:41 1060

原创 Actor Critic对比PG&Value-Based

Actor Critic是 actor与critic方法的组合。

2025-07-06 18:11:27 366

原创 Policy Gradient【强化学习的数学原理】

policy 通过参数化的函数来表示：函数近似与表格方式的区别：1. 在状态空间很大时，相比表格形式会更高效1. 对最优策略的定义：- 表格形式：能够最大化每个状态值的策略是最优策略；- 函数形式：最大化certain scalar metrics的是最优策略；2. access action的概率：- 查表- 计算给定参数和函数结构下的值3. 更新policy：- 直接更改表中的值- 通过改变参数来更改。

2025-07-05 22:38:27 667

原创 Improving Deep Learning For Airbnb Search代码实践

Improving Deep Learning For Airbnb Search这篇论文中通过对模型结构进行升级，来解决推荐模型中的效用冲突问题，达到房源价格与其他因素的平衡。（详见 Improving Deep Learning For Airbnb Search）首先尝试在模型侧优先推荐低价房源，但是发现效果降低。而查询特征（配对房源共有的特征）影响力微乎其微，即使剔除这些特征对NDCG指标也几乎无影响。

2025-07-04 17:24:54 603

原创 Loss Margin的原理与推导

接下来同样通过smooth技巧，将损失函数转化为：其中m越大，就会强行要求目标样本与非目标样本分数拉开更大的差距。

2025-06-10 16:58:06 894

原创 MTP(Multi-Token-Predict)公式解析以及代码实现

i代表token（h的下标 i 始终为1，2，3，4，不随着Module改变），k代表MTP Module（从k=0开始，k=0代表Main Model）；比如说在i=1，k=1时：MTP Module1中 t2与拼接得到：比如说在i=1，k=2时：公式2将拼接后的向量送入TRM：eg：. (如图 T=6,k=2）公式3eg:输入到Module1中得到，对应是预测t3的打分；输入到Module2中得到，对应是预测t5的打分；

2025-05-22 13:25:35 856

原创 Better & Faster Large Language Models via Multi-token Prediction 原理

单token预测：多token预测：model应用一个共享trunk来针对产生一个latent 表示,接着送入到n个独立的head来并行预测未来n个tokens。

2025-05-19 17:35:03 1234

原创最大熵逆强化学习

问题：如何从专家演示中学习一个既随机（鲁棒）又能匹配专家行为的策略？方法假设专家行为服从指数族分布（奖励函数线性加权特征）。最大化路径分布的熵，同时让学习策略的特征期望与专家一致。实现：用梯度下降优化奖励权重 θ，直到学习策略的行为与专家无法区分。这种方法广泛应用于逆向强化学习（IRL）和机器人模仿学习，能够处理噪声数据并避免过拟合。

2025-05-14 20:00:53 1363

原创基于动态规划的强化学习方法

动态规划的基本思想是将待求解问题分解成若干个子问题，先求解子问题，然后从这些子问题的解得到目标问题的解。动态规划会保存已解决的子问题的答案，在求解目标问题的过程中，需要这些子问题答案时就可以直接利用，避免重复计算。

2025-05-13 16:57:40 718

原创 Improving Deep Learning For Airbnb Search

解决推荐酒店与用户实际预定酒店价格存在偏差问题，实际预定比推荐要更便宜：所以问题为是否更低价格的list更倾向于用户偏好，应该被优先推荐？1. 该文通过数据分析与模型演进，将模型改造为item score与价格成单调递减的关系，发现预订量下降。发现价格与其他特征存在交互作用，不能单纯改造为优先推荐低价item。而随着数据分析的深入，对地区进行分桶，发现价格与质量的权衡机制过度适配预订量占主导的热门地区，而将这些权衡逻辑泛化到长尾查询时效果欠佳，模型未能适应地域特性。所以为了。

2025-04-28 19:38:23 1036

原创 transformers中学习率warmup策略具体如何设置

在使用（如 Hugging Face Transformers 库中的学习率调度器）时，参数的合理设置需要结合和来确定。: 学习率预热步数（逐渐增大学习率的阶段）: 总训练步数（学习率从峰值线性衰减到 0 的总步数）总训练步数 = 每轮（epoch）的步数 × 训练轮数（epochs）每轮的步数 = ⌈ 数据总量 / batch_size ⌉ （向上取整）（< 10k 样本）: 预热步数占总步数的（> 10k 样本）: 预热步数占总步数的（> 1M 样本）: 预热步数可设为max。

2025-03-27 19:46:29 1566

原创 16-Identity Mappings in Deep Residual Networks

hf函数应该使用恒等映射，保证梯度可以直接回传至任意浅层，不容易产生梯度消失或爆炸，相比其它hf函数效果更好h:使用会阻碍传播，产生优化问题f :使用BN会阻断梯度的传播，不要加在addition之后ReLU不要加在残差模块的最后：希望残差模块的输出是无穷正无穷之间1.保证f和h是恒等映射2.在残差模块中将BN和Relu函数提前，效果最好3.将BN放在weight之前：保证每一层残差模型的输入都是归一化的。

2025-03-26 12:38:52 444

原创大模型技术细节（参数量&时间复杂度）

大模型吞吐量的计算需要综合考虑模型的计算需求、硬件性能、系统架构以及软件优化等多个方面（计算量、硬件性能、并行策略、内存限制、通信开销、模型结构、软件优化、数据加载等）可能没有一个简单的公式，而是需要具体问题具体分析，结合实测和理论估算。

2025-03-26 10:56:46 888

原创 tensorflow与torch并行读取数据机制

PyTorch 虽然没有与 TensorFlow 的 tf.data API 和 TFRecord 格式完全相同的机制，但它通过 torch.utils.data 模块和分布式训练库实现了类似的功能。其速度与文件大小直接相关：文件总数据量越大，预加载时间越长，但后续训练时的数据访问速度会更快（因为无需频繁的磁盘 I/O），所以可以将每个文件做的小一点）。并行化支持：支持分片（Sharding），将大数据集拆分成多个文件（如 data-00001-of-00010.tfrecord），便于并行读取。

2025-03-21 14:34:38 1406

原创 on-policy对比off-policy

强化学习中有两个策略：行动策略（生成样本的策略）和目标策略（被优化的策略）和：使用当前策略（即正在优化的策略）生成的数据来更新策略。：允许使用其他策略（如历史策略或探索性策略）生成的数据来更新目标策略，两个策略是分离的。

2025-03-18 21:16:35 825

原创稀疏attention：Sliding Window Attention高效实现方式

---- 持续更新。

2025-03-14 18:18:18 1263

原创 4种经典位置编码

固定位置 pos随着维度i的增加，正弦和余弦函数的频率会降低，周期会变长(见上图)。所以简单来说 RoPE 的 self-attention 操作的流程是，对于 token 序列中的每个词嵌入向量，首先计算其对应的 query 和 key 向量，然后对每个 token 位置都计算对应的旋转位置编码，接着对每个 token 位置的 query 和 key 向量的元素按照两两一组应用旋转变换，最后再计算 query 和 key 之间的内积得到 self-attention 的计算结果。时，函数的值会重复。

2025-03-12 21:30:37 1023

原创 24-MATH-SHEPHERD:

这一标准源于推理过程的主要目标，推理过程本质上是一种认知过程，帮助人类或智能体达到有充分依据的结果。因此，一个有可能推断出有充分依据的结果的步骤可以被认为是一个很好的推理步骤。与ORM类似，这个定义也引入了一定程度的噪声。然而，我们发现，有效地训练一个好的PRM是有益的。受蒙托卡罗树搜索的启发，将推理步骤的质量定义为其推断出正确答案的潜力。为了量化和估计给定推理步骤sis_isisi1j⋅⋅⋅sKjjajsi1j,⋅⋅⋅,sKjj。

2025-03-11 10:45:53 847

原创 Scaling Laws for Neural Language Models

调查大模型与模型结构，模型大小，算力，数据之间的关系。这种关系可以被更严格地定义成 Scaling Law，这是一个可以描述 LLM 的测试损失随某个量（如训练计算量）的增长而降低的公式。Scaling Law 可帮助我们预测当投入更多资源进行更大规模训练时的效果，这能给我们提供继续投资 scaling 的必要信心。如何合理的分配资源来达到更好的训练效果。问题：模型的形状（即层的数量和大小）重要吗？使模型更大是否有助于其表现更好？训练这些更大的模型需要多少数据匹配？

2025-03-07 10:36:01 1287

原创大模型相关细节

大模型相关知识点

2025-02-28 16:39:47 1941

原创梯度累加（结合DDP）梯度检查点

梯度累加，梯度检查点

2025-02-25 20:21:38 891

原创混合精度提升大模型训练性能

混合精度，权重复制，loss scale

2025-02-25 11:58:14 1125

原创 TD时间差分算法

刚才介绍的TD算法只能估计state-values，Sarsa可以直接估计action values，并且结合policy improvement可以求解最优策略。和MC的不同：在对state进行估计update后，立马进行policy update，而不是积累很多数据对state进行一个相对准确的估计。Sarsa基于一步的action来计算，N-step Sarsa等待n步的数据，再计算。N-step Sarsa 是一个更一般化的形式，当n=1，为Sarsa算法，当n->为目标值，该算法的目标是使得。

2025-02-24 08:40:01 915

原创强化学习-GAE方法

强化学习的目标为最大化策略的预期总回报，其中一个主要困难为行为对reward的影响存在一个长时间的延迟（credit assignment problem）。价值函数为信用分配提供了一种优雅的解决方案，它们允许我们在延迟的奖励到来之前估计一个动作的好坏。AC方法中使用价值函数而不是经验回报，以引入偏差为代价获得方差较低的估计量。但是，虽然高方差需要使用更多的样本，但偏差更有害——即使样本数量不受限制，偏差也会导致算法无法收敛，或者收敛到一个甚至不是局部最优的糟糕解决方案。

2025-02-21 20:37:09 1152

原创 RLHF的改进算法DPO原理

RLHF需要先利用偏好数据来训练一个RM，然后基于强化学习来最大化奖励，而不能偏离原始模型。DPO通过奖励函数和最优策略之间的映射，受限的奖励最大化问题可以使用单个阶段的策略来实现微调，无需训练RM，数据采样，训练更轻量；IPO提出当偏好数据更优的确定性很大时，控制kl散度强度的参数不起作用，dpo可能会发生过拟合。IPO在DPO的损失函数上添加了一个正则项，从而即使偏好确定性很大时，最优的策略也可以靠近于。这样模型的微调更新就不依赖于reward函数，而是只依赖于偏好数据对。将reward r带入到。

2025-02-19 21:13:02 904

原创 RLHF中PPO算法细节

1. 第一项：第一项中r为reward-model给RL模型输出的打分，由于在训练过程中，模型的输出会发生变化，所以reward-model的作用是减少标注成本，并且将reward-model的打分作为优化的基准。第三阶段利用第二阶段的打分模型来优化，产生高reward的回答，类似利用伪标签来扩充高质量训练数据。将value-function作为actor的监督信号，value-function在训练过程是同时根据reward-model进行优化。偏移太多，将其限制在一定区间范围内，提升训练的稳定性。

2025-02-17 19:16:18 1692

空空如也

空空如也