Czi.-CSDN博客

原创 DataGrip+postgresql+postgis

【代码】DataGrip+postgresql+postgis。

2025-09-24 05:49:26 321 1

本文介绍了在没有网络访问权限的情况下离线安装GitHub上的Python包（如panopticapi和cityscapesScripts）的三种方法：1）通过git克隆仓库并打包为.tar.gz文件；2）下载预编译的.whl文件；3）使用pip的--no-index选项进行本地安装。主要步骤包括在联网环境中获取源码、生成安装包，然后将其转移到离线环境进行安装。这些方法适用于需要在内网或隔离环境中部署Python包的场景。

2025-08-30 17:25:34 579

原创滑动窗口-无重复字符的最长字串-找到字符串中所有字母异位词

max_length 更新保存的结果start 更新最长字串的起始位置char_index_map[char] + 1 重复位置+1作为新的起始位置i - start + 1 最长字串的末尾位置为i(1) = : 新的重复位置在最开始start(2) > : 新的重复位置在max_length中间以s只有一个元素为例子：i = 0。

2024-10-19 01:48:13 806

原创小顶堆、大顶堆和Top-k问题

【代码】小顶堆和大顶堆。

2024-10-18 21:44:33 452

原创从零实现llama3（学习）

对于第0层注意力机制，最后要做的事情之一是将其与权重矩阵相乘。我们将使用输出解码器将最终的嵌入转换为一个标记。希望在我们的案例中，答案是42 😃注意：42是书籍《银河系漫游指南》中对“生命、宇宙及一切终极问题的答案”的回答。根据这本书，大多数现代大型语言模型都会在这里回答42，这应该验证我们整个代码的正确性！祝我好运 😃。

2024-10-15 17:27:10 1079

原创 InstructGPT的四阶段：预训练、有监督微调、奖励建模、强化学习涉及到的公式解读

奖励模型的训练基于人类反馈，通过比较两个模型生成的回应来进行优化。该训练过程使用了交叉熵损失函数，优化目标是让奖励模型尽可能地预测出哪个回应更符合人类标注员的偏好。通过只选取部分比较对进行训练（而不是所有组合对），减少了计算开销，并有效避免了模型过拟合。在这篇文章中，使用了强化学习中的进行策略优化，同时通过引入KL 散度惩罚项来确保 RL 策略与 SFT 策略不过度偏离。此外，预训练损失通过一个额外的项加入到了目标函数中，以解决在某些 NLP 任务上的性能回退问题。

2024-10-13 02:33:39 2086

原创手撕SwiGLU和GELU

GELU是一种基于概率的平滑激活函数，适合标准神经网络，尤其在像 BERT 这样的语言模型中有很好的效果。SwiGLU则结合了 Swish 和门控机制，提供了更强的灵活性，适用于更复杂的任务。

2024-10-08 10:29:08 2003

原创手撕RMSNorm和LayerNorm

【代码】手撕RMSNorm和LayerNorm。

2024-10-08 10:14:07 927 1

原创手撕交叉注意力机制

【代码】手撕交叉注意力机制。

2024-10-07 20:28:18 872

原创手撕多头注意力机制

使用的是因果mask。

2024-10-07 20:15:48 453

原创手撕注意力机制

【代码】手撕注意力机制。

2024-10-06 21:27:15 328

原创手撕正弦-余弦位置编码（Sinusoidal Positional Encoding）

通过使用正弦和余弦函数，Transformer 的位置编码可以在不同维度上引入不同的周期变化，这样模型能够感知序列中每个 token 的以及。

2024-10-06 17:31:32 1254

原创 Build a Large Language Model (From Scratch)学习汇总

https://github.com/Czi24/Awesome-MLLM-LLM-Colab/tree/master/LLMs-from-scratch-CN-Colab通过网盘分享的文件：Build a Large Language Model (From Scratch).pdf链接: https://pan.baidu.com/s/1BKVbCtaW7BV2my-9_T9xSA?pwd=8vjk 提取码: 8vjk–来自百度网盘超级会员v7的分享md版本：https://blog.csdn.n

2024-09-27 15:52:25 12943 5

原创 numpy手写二分类交叉熵

下面是一个使用NumPy手写二分类交叉熵损失的代码，包括详细注释。我们将定义一个简单的函数来计算交叉熵损失，并使用main函数来演示如何使用它。

2024-09-15 17:38:09 729

原创 torch.matmul和@区别

是 PyTorch 中的通用矩阵乘法函数，适用于从向量到批量矩阵的各种乘法场景。操作符是 Python 的矩阵乘法符号，行为与相同，但更简洁。二者在功能上基本一致，选择哪个取决于代码的风格和偏好。如果你想要书写更简洁的代码，操作符是一个很好的选择；如果你需要在函数或复杂场景中调用矩阵乘法，更为合适。

2024-09-14 00:09:35 1405

原创 mlp和线性层的区别

BPE 是一种有效的子词级词元化方法，通过反复合并出现频率最高的字符对来构建子词单元。它能够减少词汇表大小，处理未见过的单词，并提高模型的泛化能力。BPE 被广泛应用于现代 NLP 模型中，是处理文本数据的常用技术。

2024-08-05 01:18:49 1540

原创 BPE（Byte-Pair Encoding）

BPE 是一种有效的子词级词元化方法，通过反复合并出现频率最高的字符对来构建子词单元。它能够减少词汇表大小，处理未见过的单词，并提高模型的泛化能力。BPE 被广泛应用于现代 NLP 模型中，是处理文本数据的常用技术。

2024-08-02 10:02:57 930

原创 Cross Attention（XATTN ）pytorch实现

XATTN 是 “Cross Attention” 的缩写，表示交叉注意力机制。这是一种在多模态模型中常用的机制，用于在不同模态（例如，视觉和文本）之间建立联系和融合信息。

2024-08-02 10:01:23 3902

原创 Build a Large Language Model (From Scratch)GPT-4o翻译和代码每行中文注释Ch5

预训练未标记数据本章内容包括In the previous chapters, we implemented the data sampling, attention mechanism and coded the LLM architecture. The core focus of this chapter is to implement a training function and pretrain the LLM, as illustrated in Figure 5.1.在前几章中，我们实现了数

2024-07-23 01:03:39 2146 3

原创 LLaVA论文阅读+Colab部署

将大型语言模型（LLMs）通过机器生成的指令跟随数据进行指令调优已被证明可以提高其在新任务上的零样本能力，但这一理念在多模态领域探索较少。我们首次尝试使用仅语言的GPT-4生成多模态语言-图像指令跟随数据。通过对这种生成的数据进行指令调优，我们引入了LLaVA：大语言与视觉助手，一个端到端训练的大型多模态模型，它连接了视觉编码器和LLM，用于通用的视觉和语言理解。为了促进未来关于视觉指令跟随的研究，我们构建了两个包含多样且具有挑战性的应用导向任务的评估基准。我们的实验表明，

2024-07-22 02:59:34 1640 1

原创 Build a Large Language Model (From Scratch)GPT-4o翻译和代码每行中文注释Ch4

4 从零开始实现GPT模型以生成文本In the previous chapter, you learned and coded the multi-head attention mechanism, one of the core components of LLMs. In this chapter, we will now code the other building blocks of an LLM and assemble them into a GPT-like model that we w

2024-07-21 21:29:16 3158 1

原创 LLM101n课程大纲

我们将从基础开始，端到端地构建一切，从头开始使用Python、C和CUDA，并且仅需最少的计算机科学先决条件。到最后，你应该对AI、LLM和深度学习有一个相对深入的理解。在本课程中，我们将构建一个讲故事的AI大型语言模型（LLM）。通过合作，你将能够与AI一起创建、完善和展示小。我不能创造的东西，我就无法理解。

2024-07-19 15:37:51 1495

原创吴恩达大模型LLM系列课程学习(更新42门课程)

如果这个仓库对你有帮助，请点个star，并私聊我，我将发送给你《Build a Large Language Model (From Scratch)》的电子版，包括GPT-4翻译的全书PDF，方便你做笔记。设置你需要用的翻译软件。

2024-07-19 01:37:36 3508