Jay Kay-CSDN博客

原创论文阅读：speculative decoding

本文学习了一种基于推测解码（speculative decoding）的Transformer模型加速推理方法。该方法通过使用一个快速但低精度的草稿模型M_q预先生成候选序列，再由目标模型M_p进行验证和修正，显著减少了推理时间。

2025-06-12 22:40:51 320

原创 MemVid：信息存储的未来？创新还是“视频噱头”？

Memvid 通过将文本数据编码成视频，革新了 AI 记忆管理，实现了在数百万文本块中进行闪电般的语义搜索，并具备小于一秒的检索时间。与传统消耗大量 RAM 和存储空间的向量数据库不同，Memvid 将您的知识库压缩成紧凑的视频文件，同时保持对任何信息的即时访问。它有什么优势呢？

2025-06-12 11:34:59 443

原创 deepbayes: VI回顾和GMM近似推断

本文回顾了变分推断（VI）的基本公式和两种主要方法——平均场变分推断（Mean Field VI）和参数化变分推断（Parametric VI）。重点以高斯混合模型（GMM）为例，探讨了其在聚类问题中的应用。GMM通过假设数据由多个高斯分布混合生成，实现软聚类，相比K-means更具灵活性。文章详细推导了GMM的训练过程，包括EM算法的E步（计算潜在变量后验分布）和M步（参数优化）。

2025-06-11 19:28:12 921

摘要：研究者提出强化预训练(RPT)新范式，将下一词元预测重塑为推理任务，通过生成思维链来预测词元并验证奖励。RPT利用海量未标注文本数据构建通用RL训练集，避免了人工标注成本，同时减少奖励欺骗风险。实验表明，RPT显著提升模型在语言建模、零样本任务中的表现，且性能随计算资源增加持续提升。该方法还为后续强化学习微调提供了更优基础，展现出与结构化推理不同的推断性思维模式。RPT有效连接了自监督预训练与强化学习的能力，为LLM训练开辟了新路径。

2025-06-11 15:11:16 810 1

原创 deepbayes lecture3:隐变量模型

**隐变量模型**是一种强大的统计建模工具，它可以帮助我们理解和分析数据中隐藏的结构和关系。在许多实际问题中，我们观察到的数据往往是不完整的，或者数据生成的过程受到一些我们无法直接观测到的因素的影响。隐变量模型通过引入**隐变量**（latent variables）来解释这些隐藏的因素，从而更准确地描述数据的生成过程。

2025-06-10 10:07:31 441

原创 deepbayes lecture2:变分推断

本文学习的变分推断是机器学习中近似贝叶斯推断的有效方法，它将后验推断转化为优化问题，通过最小化KL散度寻找与真实后验分布接近的简单分布。相比MCMC，变分推断速度更快、可扩展性强。其核心是最大化证据下界（ELBO），常见的方法包括平均场近似和坐标上升变分推断等。

2025-06-09 18:01:18 1025

原创 deepbayes lecture1: 贝叶斯框架简介

本文学习的贝叶斯框架是一种基于概率的机器学习方法，通过贝叶斯定理结合先验知识与观测数据更新对模型参数的信念。与频率主义不同，它将参数视为随机变量，能编码先验知识并提供估计不确定性信息。共轭先验的使用简化了计算，贝叶斯方法在数据有限时表现更优，且能通过后验分布全面反映参数不确定性。

2025-06-09 17:57:22 433

原创 triton学习笔记7: GEMM相关

本文分享了Triton教程中关于Group GEMM实现的笔记。通过Triton语言编写了一个分组矩阵乘法内核，支持同时处理多个不同尺寸的GEMM运算。代码使用自动调优机制优化块大小配置，并提供了CUDA设备兼容性检查。内核实现包含指针管理、尺寸处理、分块计算等关键组件，展示了如何利用Triton高效实现复杂矩阵运算。文中还推荐了一篇详细介绍GEMM原理的文章作为参考。

2025-06-08 17:05:48 1196

原创 triton学习笔记6: Fused Attention

本文分享了Flash Attention v2的学习笔记，主要内容包括： Flash Attention v2的主要优化点：减少非matmul计算、优化seqlen维度并行、改进Warp分区策略对比v1和v2的计算逻辑差异，包括IO交换次数减少和循环顺序调整提供官方Triton实现的代码片段，展示了注意力机制的核心计算过程介绍了在不同硬件平台上的配置选项文章是系列笔记的一部分，涉及Flash Attention v1/v2/v3及flash decoding等相关技术摘要完整呈现了文章的技术要点和

2025-06-07 16:59:05 1229

原创 triton学习笔记5: layernorm

本文学习了triton官网layernorm的实现方式，同时学习了triton中的原子操作和线程屏障，以及如果将triton的前向反向封装进入torch模块中，并提供了最后的测试曲线。

2025-06-07 10:20:47 1178

原创短视频时长预估算法调研

本文总结了多种视频观看时长预估方法。Weighted LR通过加权正样本和logits建模预估时长；D2Q分组预测但未解决顺序依赖问题；树回归利用二叉树分段并引入方差loss保持顺序性；CREAD采用离散化-分类-恢复框架，通过概率积分恢复连续时长；EMD则基于运输成本最小化原理，利用Mallows距离解决有序分类问题，适用于存在类别依赖的场景。这些方法从不同角度解决了时长预估中的偏差和顺序依赖问题，为视频推荐系统的优化提供了多样化的技术路径。

2025-06-05 17:53:23 958

原创 ReLU 新生：从死亡困境到强势回归

摘要：德国研究者提出SUGAR方法，解决了ReLU激活函数的"死亡神经元"问题。该方法在保留ReLU前向传播特性的同时，通过替代梯度函数改进反向传播过程，设计了B-SiLU和NeLU两种新型函数。实验表明，相比传统ReLU，SUGAR方法在MLP模型上取得了更低的损失(0.0916 vs 0.0918)和更高的AUC(0.8260 vs 0.8242)。该方法既维持了ReLU的优势，又克服了其梯度消失缺陷，为深度学习模型提供了新的激活函数选择。

2025-06-04 19:26:57 1239

原创 triton学习笔记4：官网tutorial学习(一)

Triton 是一个更高层次的 GPU 编程框架，相比 CUDA 简化了线程管理等底层细节，支持 Python 风格的语法，降低开发门槛。本文通过几个案例展示了 Triton 的应用：向量加法（熟悉基本语法）、融合 Softmax（深入并行计算策略与硬件参数）、矩阵乘法（版本兼容性与精度问题）及低内存 Dropout（利用随机种子优化显存）。还提供了 Triton 官网和 GitHub 链接，并引用相关参考资料，帮助开发者理解其编程逻辑和优化效果。结果表明 Triton 在不同场景下均能有效提升性能。

2025-06-03 13:40:46 737

原创 TensorFlow Serving学习笔记1: 框架和请求流程解析

TensorFlow Serving是一个高性能机器学习模型服务系统，主要包含apis/、core/、model_servers/等模块，分别负责API定义、核心功能和服务器管理。系统采用模块化设计，支持REST和gRPC接口，提供预测、分类、回归等服务。请求处理流程包括接入层（HTTP/gRPC）、核心处理层（模型管理、批处理、推理执行）和响应层。其架构特点包括低耦合、高扩展性，支持多种模型格式和版本管理，通过批处理优化性能，适用于生产环境。

2025-06-02 12:19:01 571

原创 triton学习笔记3：矩阵分块术

Triton的学习笔记3，参考并理解了二维卷积，矩阵分块乘法和二维的矩阵量化乘法。

2025-06-02 11:27:01 926

原创 LLaDA：用扩散模型改变语言生成的范式

中国人民大学与蚂蚁集团联合推出LLaDA模型，创新性地采用扩散模型取代传统自回归方法进行语言生成。该模型通过遮蔽和预测机制，实现了双向信息利用，在2.3万亿token数据上预训练后，展现出三大优势：在MMLU等15个基准测试中媲美LLaMA3；通过半自回归采样策略显著提升逆向推理能力，诗歌补全任务超越GPT-4o；指令跟随能力在多轮对话中表现突出。实验表明，8B参数的LLaDA在通用任务上超越LLaMA2 7B，但物理交互任务稍弱。这种新型架构为突破自回归模型局限提供了新思路。

2025-05-30 17:39:59 1196

原创 triton学习笔记2: 循环优化术

摘要：本文介绍了两种Triton实现的softmax优化方法。第一种是暴力解法，通过三个循环分别计算最大值、exp求和及最终softmax。第二种采用在线计算策略，在遍历数据时动态更新最大值和exp求和，仅需两个循环完成计算。两种方法都利用exp2替代exp以提高数值稳定性，并通过分块处理(B0,B1)优化内存访问。代码展示了如何在Triton中实现分块并行计算，其中两个循环的解法通过中间状态复用显著减少计算量。该技术可扩展至注意力机制等场景（如后续的FlashAttention实现）。

2025-05-29 22:08:17 994

原创 triton学习笔记：triton puzzles前7题

本文记录了作者学习Triton Puzzles的心得体会，分析了7个典型练习题的解法。从基础的常数加法到分块处理、外积运算、ReLU激活和反向传播等进阶操作，逐步深入探讨了Triton的核心编程技巧。重点包括指针运算、掩码应用、分块处理、二维索引转换以及梯度计算等关键技术。这些练习展现了Triton在高效并行计算方面的优势，为后续深度学习优化工作打下基础。作者特别强调了掩码操作的重要性，并计划继续完成后续题目以巩固学习成果。

2025-05-27 22:31:10 524

原创推荐算法：生成式排序调研（一）

生成式排序与传统推荐系统的核心区别在于样本组织和模型推理方式。样本层面，生成式模型采用用户粒度的序列数据配合掩码机制，替代传统曝光粒度的样本组织。模型推理上，生成式排序借鉴大语言模型技术，围绕KV缓存和批处理进行优化，显著提升了长序列处理效率。代表性工作如Meta的HSTU架构、美团的MTGR和百度的GRAB，均通过序列化建模实现了效果提升和资源优化，验证了生成式推荐遵循Scaling Law的特性。这些创新为推荐系统突破传统特征工程瓶颈提供了新方向。

2025-05-26 11:27:29 689

原创 Hugging Face + Spark：打造高效的 NLP 大数据处理引擎(一)

在自然语言处理（NLP）领域，Hugging Face 和 Spark 分别作为 NLP 处理和大数据处理的强大工具，结合两者可以实现高效的 NLP 大数据处理。本文介绍了两种结合 Hugging Face 和 Spark 的方法。

2025-05-21 23:22:41 548

原创推荐系统性能飞跃：使用 HNSWlib-PySpark 实现分布式近似最近邻搜索！

在大数据场景下，近似最近邻搜索（ANN）是推荐系统和图像检索等应用的关键技术。传统的单机版HNSWlib在处理大规模数据时性能受限，因此我们采用分布式解决方案HNSWlib-PySpark进行召回实验。HNSWlib-PySpark通过将HNSW算法与PySpark集成，利用分布式计算的优势，显著提升了处理海量数据的效率。实验结果表明，HNSWlib-PySpark的召回率在0.8至0.9之间，能够有效满足大规模数据场景下的需求。该方案的优势在于其分布式架构，能够显著提高召回效率，适用于处理海量数据。

2025-05-19 21:21:08 351

原创 TensorFlow模型转换与优化：流程解析

本文将两种将TensorFlow模型转换为ONNX格式并进行量化的方法，最终再转回TensorFlow，以优化模型性能、减少体积和内存占用。路径1通过tf2onnx将模型转换为ONNX，使用onnx-simplifier优化图结构，再通过Onnx quant_dyamic进行量化，并对节点重命名，最后用onnx-tf转回TensorFlow。路径2直接在TensorFlow中进行量化，转换为TFLite格式，再通过第三方工具转回TensorFlow。

2025-05-16 22:40:47 857

weixin_44778145的博客