zachary_qin-CSDN博客

原创史上最全Transformer！大量图解警告！！不懂来捶我！

autoregress模型每次只生成一个token，每个token只依赖于之前所有已经生成的token。BERT 是一个双向 Transformer 编码器，用来理解文本，而不是生成文本。，只需要用到current query，不需要用之前的，所以不需要缓存。只告诉模型“词是什么”，但不知道“词和上下文的关系”。计算当前token对序列里其他的token的重要程度。，需要缓存之前的keys（KV cache），需要缓存之前的values（KV cache）多个head分享一组K, V，但是有自己的Q。

2025-11-25 18:54:47 547

原创 javaSE

继承就是子类继承父类的特征和行为（属性和方法）。

2025-11-20 04:59:52 776

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 史上最全Transformer！大量图解警告！！不懂来捶我！

原创 javaSE

空空如也

空空如也

原创史上最全Transformer！大量图解警告！！不懂来捶我！