1.大模型技术概览

wumg3000

已于 2024-01-08 09:35:56 修改

阅读量1.1k

点赞数 21

分类专栏： LLM 文章标签：人工智能

于 2023-12-27 13:27:28 首次发布

本文链接：https://blog.csdn.net/wumg3000/article/details/135242873

版权

3 篇文章 0 订阅

订阅专栏

模型规模达到某个阈值时，模型对某些问题的处理性能呈现快速增长。这个过程类似于水加热到100度的过程。

目前一些大模型已达或接近这个阈值，个人觉得这些技术或方法功不可没：

一、软件方面

1.BP算法

2.注意力机制

注意力机制，尤其是自注意力机制，是LLM的核心，自注意力机制为啥高效？个人觉得自注意力机制突破了传统看问题的视角，采用了新视角。

3.强化学习

强化学习一大贡献就是弥补了传统机器学习评估标准的不足，传统机器学习一般基于损失函数进行评估，希望预测与标签的差平方（或两者的分布近似度）越小越好。这种评估方式是一种绝对值的近似，不利于输出多样性的结果。而强化学习采用奖励或评分的方式，看重的是输出与期望值的对齐程度。

4.大数据平台，如PyTorch，TensorFlow，及CUDA架构等

5.GEMM

二、硬件方面

GPU、TPU等的助力。

（1）FlashAttention，FlashAttention-2

FlashAttention优化特点：从软件又结合了硬件两个方面。

软件方面，采用了矩阵分块、在线softmax、重新计算（有点类似于Python中迭代器思想）等方法

硬件方面：考虑到GPU的架构特点，如A100,H100等GPU中的HBM,SRAM的优缺点。

GPU中的HBM,SRAM的优缺点

（2）Learned、Relative、RoPE等位置编码方法

RoPE位置编码利用绝对位置的表达方式实现了相对位置编码的功能，其关键是采用了复数的表达方式，利用欧拉公式，把数字与旋转有机结合，而相对位置可以用旋转角度很好解决。

（3）多种注意力机制

下面我选择8个比较典型的大模型，统计了它们使用的一些技术，供大家参考。