【AI大模型】相关知识梳理

为了系统性梳理AI,大模型,训练和推理,数学,机器学习,python等基础知识,并在此基础上深入理解经典论文,本人将持续更新有关这些方向的基础知识博客,博客 将保持一如既往的 通俗易懂的风格。并且结合代码来深入理解。

Transformer

  • 基本概述
  • Tokenization
  • Position Embedding
  • BN,LN和RMSNrom
  • Post-Norm和Pre-Norm
  • Self-Attention
  • Multi-head Attention
  • Residual & FFN
  • Masked Attention
  • Cross Attention

大模型结构,训练和推理

大模型结构

  • 不同结构的区别(encoder-only,decoder-only,encoder-decoder)
  • Weight tying 及其求导过程
  • 不同数据类型的区别(bf16,fp16,fp32)
  • 大模型参数量的计算
  • 大模型输出参数配置
  • 大模型输出采样策略

大模型训练

  • 常规训练流程及其区别
  • 大模型训练时显存占用分析
  • 分布式训练-数据并行(DP,DDP,Deepspeed Zero)
  • 分布式训练-张量并行
  • GPU基本原理
  • Flash attention原理
  • 梯度检查点
  • 高效参数微调(以Lora为例)
  • 偏好对齐(以DPO为例)

大模型推理

  • Kv cache
  • mqa,gqa,mla的区别
  • Output 价格比 input价格更贵的原因
  • vllm推理库的原理

经典论文

  • GPT系列
  • llama系列

多模态大模型理解和生成

多模态基础模型

  • Vit
    • 实现方式
    • 位置编码
  • Clip
    • clip的原理
    • siglip与clip的区别

多模态理解

  • blip2
  • Qwenvl
  • Llava
  • Internvl
  • minicpm
  • 大图切分
  • 转接层的实现方式
  • 视觉token压缩

多模态生成

  • 生成模型的发展(ae,vae,ddpm,sd,dit)
  • opensora

机器学习基础和常考面试题目

  • 使用numpy实现神经网络全流程
  • 过拟合
  • 正则化
  • 标准化/归一化
  • 梯度消失和梯度爆炸
  • 优化器的原理
  • 常见损失函数

数学基础和常考面试题目

  • 概率论
  • 线性回归
  • 动态规划

计算机和数据结构基础和常考面试题目

  • 进程和线程
  • 栈和队列
  • 二叉树
  • 图论
  • 排序

Python基础和常考面试题目

  • 深拷贝和浅拷贝,python对应的实现
  • Python gil锁
  • 注册器
  • 4
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

嗜睡的篠龙

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值