自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 收藏
  • 关注

原创 Beam Search算法在《Attention is all you need》源代码中是如何实现的?

深入理解 Beam Search 算法在 Transformer 模型中的实现。几乎每句代码都附上了面向小白的大段注释。研究 "Attention is All You Need" 论文对应的 PyTorch 实现中的 Beam Search我们具体关注的是 transformer/Translator.py 文件中的 Translator 类。

2025-01-21 19:48:17 570

原创 [论文笔记] AUTOPROMPT (基于梯度搜索的自动提示词)

论文旨在通过自动生成提示(prompts)来提升语言模型在下游任务(如分类、问答等)中的表现。与传统的手工设计提示不同,AutoPrompt 使用一种优化方法(Gradient-Based Search)来找到最优的提示模板。

2025-01-21 11:17:31 1329 1

原创 大模型中的困惑度(Perplexity)是个啥?:小白都能看懂的讲解

用举案例的方式,浅显的讲解“困惑度“文本大模型生成质量评估指标。

2025-01-20 21:38:53 4483

原创 大模型中的 Beam Search 算法详解

从0开始,渐进式讲解Beam Search算法,这是一种大模型Text-to-Text文本推理必定会用到的算法,它部分决定了模型输出文本质量的好坏。除了Beam Search的基本概念,流程演示,示意图外,我们还加入了BeamSearch和常见的贪心搜索,穷举搜索的复杂度比较,并且我们还列举了主流的BeamSearch优化研究方向。

2025-01-19 17:02:56 2608

原创 《强化学习:原理与Python实现》:第1章精讲

强化学习概念,系统介绍,重要component如 O,R,S,A l介绍。外加两个用openai 的 gym 强化学习库写的案例。

2025-01-17 11:45:23 2295

原创 神经网络中的LayerNorm详解

假设我们有一个批次的NLP数据,包含3个句子(batch_size=3),每个句子有4个单词,每个单词用2维的词向量表示。对于第2个特征维度(所有词向量的第2个数字):计算 [2,4,6,8, 3,5,7,9, 4,6,8,10] 的均值和方差。对于第1个特征维度(所有词向量的第1个数字):计算 [1,3,5,7, 2,4,6,8, 3,5,7,9] 的均值和方差。BatchNorm:跨样本(句子)计算,把每个特征维度在所有句子上的值收集起来,单独归一化。

2025-01-17 11:06:52 3881 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除