- 博客(2)
- 收藏
- 关注
原创 史上最全Transformer!大量图解警告!!不懂来捶我!
autoregress模型每次只生成一个token,每个token只依赖于之前所有已经生成的token。BERT 是一个双向 Transformer 编码器,用来理解文本,而不是生成文本。,只需要用到current query,不需要用之前的,所以不需要缓存。只告诉模型“词是什么”,但不知道“词和上下文的关系”。计算当前token对序列里其他的token的重要程度。,需要缓存之前的keys(KV cache),需要缓存之前的values(KV cache)多个head分享一组K, V,但是有自己的Q。
2025-11-25 18:54:47
547
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅