- 博客(6)
- 收藏
- 关注
原创 Beam Search算法在《Attention is all you need》源代码中是如何实现的?
深入理解 Beam Search 算法在 Transformer 模型中的实现。几乎每句代码都附上了面向小白的大段注释。研究 "Attention is All You Need" 论文对应的 PyTorch 实现中的 Beam Search我们具体关注的是 transformer/Translator.py 文件中的 Translator 类。
2025-01-21 19:48:17
570
原创 [论文笔记] AUTOPROMPT (基于梯度搜索的自动提示词)
论文旨在通过自动生成提示(prompts)来提升语言模型在下游任务(如分类、问答等)中的表现。与传统的手工设计提示不同,AutoPrompt 使用一种优化方法(Gradient-Based Search)来找到最优的提示模板。
2025-01-21 11:17:31
1329
1
原创 大模型中的 Beam Search 算法详解
从0开始,渐进式讲解Beam Search算法,这是一种大模型Text-to-Text文本推理必定会用到的算法,它部分决定了模型输出文本质量的好坏。除了Beam Search的基本概念,流程演示,示意图外,我们还加入了BeamSearch和常见的贪心搜索,穷举搜索的复杂度比较,并且我们还列举了主流的BeamSearch优化研究方向。
2025-01-19 17:02:56
2608
原创 《强化学习:原理与Python实现》:第1章精讲
强化学习概念,系统介绍,重要component如 O,R,S,A l介绍。外加两个用openai 的 gym 强化学习库写的案例。
2025-01-17 11:45:23
2295
原创 神经网络中的LayerNorm详解
假设我们有一个批次的NLP数据,包含3个句子(batch_size=3),每个句子有4个单词,每个单词用2维的词向量表示。对于第2个特征维度(所有词向量的第2个数字):计算 [2,4,6,8, 3,5,7,9, 4,6,8,10] 的均值和方差。对于第1个特征维度(所有词向量的第1个数字):计算 [1,3,5,7, 2,4,6,8, 3,5,7,9] 的均值和方差。BatchNorm:跨样本(句子)计算,把每个特征维度在所有句子上的值收集起来,单独归一化。
2025-01-17 11:06:52
3881
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅