老麦克马猴-CSDN博客

原创 AI学习记录 - 依据 minimind 项目入门

python data_process.py：这一步具体做什么还在看，猜测就是按照特定的策略从超大文本预料当中获取自己需要的语料。官网：https://pytorch.org/

2024-12-14 17:42:55 671

原创 AI学习记录 - L2正则化详细解释（权重衰减）

在神经网络训练的时候，权重可能会变得很大，或者变得很小，因为我们没有制定任何的限制，导致模型变很复杂，例如出现99，-100这种极端权重出现，因为可能拟合了奇怪的数据。一般情况下我看到权重大概都在-5到5之间。

2024-10-06 21:52:01 606

原创 AI学习记录 - 旋转位置编码

旋转矩阵为：下面我们来套用上面说到的公式计算：

2024-09-05 08:30:34 858

原创 AI学习记录 - 解读llama3

这是github大佬的llama3的代码，我继续加上属于我自己的理解。

2024-09-03 08:22:38 824

原创 AI学习记录 - 模型训练中怎么反向传播以及学习率的影响

500 * 0.01(学习率) = 5 (变化程度)5（原权重） + 5 (变化程度) = 10 (新权重)

2024-08-28 20:12:47 372

原创 AI学习记录 - 如何快速构造一个简单的token词汇表

但是实际上当你训练好模型之后，就算你要求用户使用英语法语西班牙语，但是用户可能会使用其它语言去提问，不在我们上面的区间，所以我们要兼容用户输入一些其他语言，但是由于我们没有对其他语言独立给一个位置，所以当使用其他语言去跟模型提问的时候，效果可能不会很好，但我们针对的用户主要是英文法语西班牙语。”)就是获取一个字符在unicode编码世界中的一个下标，可以看到对你重要的字符都在下面，你可以随意更改上面的字符。原先已经拥有字符的下标，我们不去改它了，继续让他使用unicode编码的下标即可。

2024-08-21 23:47:12 660

原创 AI学习记录 - 多头自注意力

多头自注意力机制解析

2024-08-11 17:58:08 1049

原创 AI学习记录 - gpt如何进行token化，理论知识，以GPT2为举例

在不同的语言模型当中，会有不一样的token训练方式，这却决于具体的应用场景，以GPT2为例，一共有50257个token。token就是词汇表，是训练使用到的所有的词汇。下面看下第1000个token到第1300个token之间的词汇长什么样？。。。。。。。。。。。。这个词汇表不是天生就有的，而是通过文本语料训练出来的。

2024-08-08 23:03:07 1125

原创 AI学习记录 - transformer的位置编码的理解

先看三角函数为什么可以，我们看下三角函数的图像先提一个点：位置信息肯定是唯一的，或者是在很长的文字当中，起码重复度不会太高，x轴代表位置，y轴代表叠加上去的值1、假设只使用一个三角函数sin，我们将第2和第14两个位置输入到sin，他们的值很像，在神经网络的训练中，很容易把第2个位置和第14个位置当成是一个位置，不满足我们上面说到的要求位置唯一性。sin2sin14。

2024-07-26 23:15:49 1132

原创 AI学习记录 - 导数在神经网络训练中的作用

我们去调整神经网络的权重，一般不会手动去调整，如果只有很少的神经元，人工调整确实可以实现，当我们有几十层，一层几百上千个神经元的时候，人工调整就不可能了。一个权重的调整涉及到两个问题，一个是调大还是调小，一个是调整的幅度。

2024-07-24 00:34:30 551

原创 AI学习记录-MCP协议

有用点赞收藏关注，有用继续完善官方依赖使用官网的依赖的写法MCP Client 一般都是如下东西：MCP Server大家应该看其他博客都知道，就是工具的集合体，这个集合体是怎么实现的不重要，是什么语言写的不重要，是否使用官网的依赖实现的也不重要。重要的是它提供了两个接口给到MCP Client端。第一个接口是返回我这个MCP Server有什么工具，也就是工具列表。第二个接口是MCP Client通过传参给MCP Server需要调用哪个方法，调用方法的时候传递什么参数。只要实现了这两个接口，那就是

2025-05-14 00:38:13 350

原创 AI学习记录-QWQ32b太强了

业务理解能力爆表，指令遵循能力极强，才32b成本极低，大量的公司的项目可以嵌入到自己的项目当中了，再fineture一下，以后不上AI的系统都卖不出去了。

2025-04-01 19:53:24 268

原创 AI学习记录 - PPO算法草稿

下面是两种方式生成returns的值，第一种好一点。delta计算方式不一样。

2025-03-11 00:10:18 191

原创 AI学习记录 - 最简单的专家模型 MOE

【代码】AI学习记录 - 最简单的专家模型 MOE。

2025-02-14 00:03:12 235

原创 AI学习记录 - Deepseek V3 的画图解析

【代码】AI学习记录 - Deepseek V3 的画图解析。

2025-01-16 23:01:46 1176

原创 AI学习记录 -transformer 中对于torch和numpy常用函数的使用方式

在指定维度增加一个维度。

2024-09-28 17:02:03 517

原创 AI学习记录 - 线性代数（3Blue1Brown）

一天更新一点点，只更新重点内容，一句话定义，简单的定义，避免脑子及记太多向量的加法就是一种趋势运动向量的延长缩短，就是分量的延长缩短基向量就是在平面或者任意维度空间随便定义的一个向量多个基向量的组合可以构成其它向量两个基向量可以组合成平面的所有向量，三个基向量可以组合成空间的所有向量

2024-08-30 09:26:35 643

原创 AI学习记录 - 对抗性神经网络

学习机器学习到一定程度之后，一般会先看他的损失函数是什么，看他的训练集是什么，训练集是什么，代表我使用模型的时候，输入是什么类型的数据。对抗神经网络其实可以这样子理解，网上一直说生成器和判别器的概念，没有触及到本质。

2024-08-28 11:16:29 490

原创 AI学习记录 - 怎么理解 torch 的 torch.nn.BatchNorm2d

计算归一化是需要参考值的，因为需要知道最大值最小值，已经参与计算的数量，参考值来自于哪里呢，如下。形状为 (batch_size, num_channels, height, width)合并起来，可以看到 num_channels = 3，所以计算3次。sigmoid函数，归一化，这就有差异了，充分发挥了激活函数的作用。num_channels：通道（什么是通道看上一章节）假设一批数字为 [3, 7, 2, 9, 4]sigmoid函数，不进行归一化。创建了个下面这样子的东西。

2024-08-26 21:59:49 425

原创 AI学习记录 - 怎么理解 torch 的 nn.Conv2d

红圈移动步伐为2（stride=2），移动红圈的时候超出了，蓝色框默认设置为全0，你也可以设置成其他数字（padding=0）

2024-08-24 10:36:02 494 1

原创 AI学习记录 - LSTM详细拆解

拼接词向量，前面来的，现在输入的。

2024-08-20 23:36:24 254

原创 AI学习记录 - Word2Vec 超详细解析

完整的word2Vec代码plt.show()

2024-08-19 00:05:07 657

原创 AI学习记录 - transformers 的 linear 词映射层的详细分析， CrossEntropyLoss 函数解析

词汇表：假设词汇表包含四个词汇：[token_0, token_1, token_2, token_3]。模型的输出概率分布：模型的输出经过 Softmax 转换后，得到概率分布：[0.1,0.5,0.2,0.2]

2024-08-18 15:57:14 426

原创 AI学习记录 - torch的全连接层实现

今天比较烦躁，但为了保持学习的继续，今天水一篇简单的。

2024-08-17 00:33:06 207

原创 AI学习记录 - decoder层如何与ecoder层结合

接下来讲的如下 decoder层如何与ecoder层怎么使用注意力机制结合的公式为：先生成掩码，然后把随机权重放进去，重点是这个掩码形状是固定的，负无穷大动态生成的，因为用户输入的句子长度不固定，有空余的位置我们需要填充 [PAD], [PAD]，都是负无穷大，下面红色交叉都设置成[PAD]将encoder的output的语义按照权重叠加到 START 和 h 上面，每次decoder的第一个token都是 START,固定的.得出新的矩阵，叠加上了输入词： abcd[PAD][PAD

2024-08-15 18:14:49 228

原创 AI学习记录 - transformers的decoder和encoder中的自注意力矩阵和掩码矩阵的数据处理

在实际计算的过程中，掩码不仅仅只是生成一半就可以了，我都知道GPT其实有限制token长度这一说法，假如限制50个token，我们最后生成的注意力矩阵就是长宽都是50个，但是当我们的句子不够50的时候，剩下的位置需要用指定字符去填充。

2024-08-15 14:51:34 592

原创 AI学习记录 - 自注意力机制之权重矩阵和查询向量V矩阵的计算方式的补充

如果我们熟悉自注意力的话，就会发现Q和K矩阵结合的时候，会有一个长度为句子长度的权重矩阵，假如有句子abc，求abc的注意力权重矩阵的话，那就是一个3*3的矩阵如下矩阵。我们假设了句子长度为3，那么V矩阵肯定也是宽为3，因为有三个词汇痲，长度为n的矩阵，假设n为5，每一行都是一个词向量。如下图直接使用矩阵乘法将这两个矩阵相称即可，得到一个一样的矩阵，这就是新的词向量。为什么使用矩阵乘法相乘就可以了呢，意义在哪里？意义：原来的abc词向量就是对应上面每一行，自注意之后变成新的词向量为a1b2b3。

2024-08-14 21:12:13 321 1

原创 AI学习记录 - torch 的 matmul和dot的关联，也就是点乘和点积的联系

二维矩阵点乘# 定义两个二维矩阵[3, 4]])[2, 4]])# 使用 matmul 计算展平向量的点积三维矩阵点乘# 定义两个二维矩阵[1, 2],[3, 4]],[1, 2],[3, 4]])[1, 3],[2, 4]],[1, 3],[2, 4]])# 使用 matmul 计算展平向量的点积。

2024-08-13 00:48:57 435

原创 AI学习记录 - torch 的 view 函数画图解释

假设我们一次性训练两个句子，batch_size = 2.i want a beer . // 5个tokeni want a coke . // 5个token我们的矩阵是下图的上面这个大长方块，经过view函数，切割成多个块，这是为了满足多头自注意力的计算方式。

2024-08-11 21:30:20 303

原创 AI学习记录 - transformer的位置编码的代码解读

画图不易，点个小赞。

2024-08-11 15:52:22 213

原创 AI学习记录 - transformer的Embedding层

Embedding层就是一个巨大的矩阵，边长分别是词汇表长度和词向量维度，矩阵里面的每一个数字都是一个随机初始化的，或者是其他地方经过训练之后拿过来的。在已经训练的过程中，假设我们窗口为50个token，意思就是我们生成下一个词的时候，只使用前面50个词去预测下个词，就算前面继续有词，我也不会应用，那么就变成下图。

2024-08-11 14:01:16 278

原创 AI学习记录 - 对于 torch 求导数

最近在学习torch很疑惑实现模型代码的过程中，我们只需要定义模型的结构，却不需要手动实现其反向传播的逻辑，真的很神奇，但我还未研究其底层代码实现逻辑，这里只展示一下这个神奇的过程。一个简单的数学公式，简单编写代码即可求出 x 和 y 对 z 的影响程度和影响方向就算再复杂的公式，也可以一下子求出来。

2024-08-11 00:57:37 385