羊羊AGI研究所-CSDN博客

原创 Beam Search算法在《Attention is all you need》源代码中是如何实现的？

深入理解 Beam Search 算法在 Transformer 模型中的实现。几乎每句代码都附上了面向小白的大段注释。研究 "Attention is All You Need" 论文对应的 PyTorch 实现中的 Beam Search我们具体关注的是 transformer/Translator.py 文件中的 Translator 类。

2025-01-21 19:48:17 570

原创 [论文笔记] AUTOPROMPT (基于梯度搜索的自动提示词)

论文旨在通过自动生成提示（prompts）来提升语言模型在下游任务（如分类、问答等）中的表现。与传统的手工设计提示不同，AutoPrompt 使用一种优化方法（Gradient-Based Search）来找到最优的提示模板。

2025-01-21 11:17:31 1329 1

原创大模型中的困惑度（Perplexity）是个啥？：小白都能看懂的讲解

用举案例的方式，浅显的讲解“困惑度“文本大模型生成质量评估指标。

2025-01-20 21:38:53 4483

原创大模型中的 Beam Search 算法详解

从0开始，渐进式讲解Beam Search算法，这是一种大模型Text-to-Text文本推理必定会用到的算法，它部分决定了模型输出文本质量的好坏。除了Beam Search的基本概念，流程演示，示意图外，我们还加入了BeamSearch和常见的贪心搜索，穷举搜索的复杂度比较，并且我们还列举了主流的BeamSearch优化研究方向。

2025-01-19 17:02:56 2608

原创《强化学习：原理与Python实现》：第1章精讲

强化学习概念，系统介绍，重要component如 O,R,S,A l介绍。外加两个用openai 的 gym 强化学习库写的案例。

2025-01-17 11:45:23 2295

假设我们有一个批次的NLP数据，包含3个句子（batch_size=3），每个句子有4个单词，每个单词用2维的词向量表示。对于第2个特征维度（所有词向量的第2个数字）：计算 [2,4,6,8, 3,5,7,9, 4,6,8,10] 的均值和方差。对于第1个特征维度（所有词向量的第1个数字）：计算 [1,3,5,7, 2,4,6,8, 3,5,7,9] 的均值和方差。BatchNorm：跨样本（句子）计算，把每个特征维度在所有句子上的值收集起来，单独归一化。

2025-01-17 11:06:52 3881 1

wzkecps770126的博客

原创 Beam Search算法在《Attention is all you need》源代码中是如何实现的？

原创 [论文笔记] AUTOPROMPT (基于梯度搜索的自动提示词)

原创大模型中的困惑度（Perplexity）是个啥？：小白都能看懂的讲解

原创大模型中的 Beam Search 算法详解

原创《强化学习：原理与Python实现》：第1章精讲

原创神经网络中的LayerNorm详解

空空如也

空空如也

原创 Beam Search算法在《Attention is all you need》源代码中是如何实现的？

原创 [论文笔记] AUTOPROMPT (基于梯度搜索的自动提示词)

原创 大模型中的困惑度（Perplexity）是个啥？：小白都能看懂的讲解

原创 大模型中的 Beam Search 算法详解

原创 《强化学习：原理与Python实现》：第1章精讲

原创 神经网络中的LayerNorm详解

空空如也

空空如也

原创大模型中的困惑度（Perplexity）是个啥？：小白都能看懂的讲解

原创大模型中的 Beam Search 算法详解

原创《强化学习：原理与Python实现》：第1章精讲

原创神经网络中的LayerNorm详解