【AI大模型】相关知识梳理

嗜睡的篠龙

已于 2024-09-02 22:40:15 修改

阅读量453

点赞数 4

分类专栏： AI大模型技术积累技术分享文章标签：人工智能 pytorch

于 2024-09-01 10:08:16 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43799388/article/details/141780200

版权

AI大模型技术积累同时被 2 个专栏收录

3 篇文章 0 订阅

订阅专栏

3 篇文章 0 订阅

订阅专栏

为了系统性梳理AI，大模型，训练和推理，数学，机器学习，python等基础知识，并在此基础上深入理解经典论文，本人将持续更新有关这些方向的基础知识博客，博客将保持一如既往的通俗易懂的风格。并且结合代码来深入理解。

Transformer

基本概述
Tokenization
Position Embedding
BN，LN和RMSNrom
Post-Norm和Pre-Norm
Self-Attention
Multi-head Attention
Residual & FFN
Masked Attention
Cross Attention

大模型结构，训练和推理

大模型结构

不同结构的区别（encoder-only，decoder-only，encoder-decoder）
Weight tying 及其求导过程
不同数据类型的区别（bf16，fp16，fp32）
大模型参数量的计算
大模型输出参数配置
大模型输出采样策略

大模型训练

常规训练流程及其区别
大模型训练时显存占用分析
分布式训练-数据并行（DP,DDP,Deepspeed Zero）
分布式训练-张量并行
GPU基本原理
Flash attention原理
梯度检查点
高效参数微调（以Lora为例）
偏好对齐（以DPO为例）

大模型推理

Kv cache
mqa，gqa，mla的区别
Output 价格比 input价格更贵的原因
vllm推理库的原理

经典论文

GPT系列
llama系列

多模态大模型理解和生成

多模态基础模型

Vit
- 实现方式
- 位置编码
Clip
- clip的原理
- siglip与clip的区别

多模态理解

blip2
Qwenvl
Llava
Internvl
minicpm
大图切分
转接层的实现方式
视觉token压缩

多模态生成

生成模型的发展（ae，vae，ddpm，sd，dit）
opensora

机器学习基础和常考面试题目

使用numpy实现神经网络全流程
过拟合
正则化
标准化/归一化
梯度消失和梯度爆炸
优化器的原理
常见损失函数

数学基础和常考面试题目

概率论
线性回归
动态规划

计算机和数据结构基础和常考面试题目

进程和线程
栈和队列
二叉树
图论
堆
排序

Python基础和常考面试题目

深拷贝和浅拷贝，python对应的实现
Python gil锁
注册器

嗜睡的篠龙

关注

4
点赞
踩
6

收藏

觉得还不错? 一键收藏
打赏
0
评论
【AI大模型】相关知识梳理

为了系统性梳理AI，大模型，训练和推理，数学，机器学习，python等基础知识，并在此基础上深入理解经典论文，本人将持续更新有关这些方向的基础知识博客，博客将保持一如既往的通俗易懂的风格。并且结合代码来深入理解。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

嗜睡的篠龙 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。