😄 废话不多说,直入主题。 ReLU:之前的一些经典网络里的标配,如ResNet等。GeLU:huggingface实现的bert里的标配激活函数。SwiGLU:目前很多大模型里的标配激活函数,如Google的PaLM,Meta的LLaMA等。 [1] PaLM中使用的激活函数:SwiGLU [2] GELU激活函数