Transformer Model
關於Transformer模型
Transformer是一種機器學習模型,用於自然語言處理和機器翻譯的一種架構。它以attention機制為核心,將輸入序列分為多個子序列,並計算INPUT sequence中的每個token與下一個token之間的關聯。
MODEL Architecture
“"”)
复制Transformer Model
Architecture
|---------------------------------------|
| Encoder |
| +-- Self-Attention +-- Encoder-Decoder Attention |
| | | |
| |--------------------------------|
|---------------------------------------|
| Decoder |
| +-- Decoder-Encoder Attention +-- Self-Attention |
| | | |
| |--------------------------------|
|---------------------------------------|
|
这个模型最早出現在Google的论文《English-Chinese Neural Machine Translation using Convolutional and Recurrent Neural Networks》中。
參考
“관련”
μTransformer Paper
;
この系列中将对大语言模型Series进行介绍。
如果您有任何问题,請隨時提出。