自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(2)
  • 收藏
  • 关注

原创 史上最全Transformer!大量图解警告!!不懂来捶我!

autoregress模型每次只生成一个token,每个token只依赖于之前所有已经生成的token。BERT 是一个双向 Transformer 编码器,用来理解文本,而不是生成文本。,只需要用到current query,不需要用之前的,所以不需要缓存。只告诉模型“词是什么”,但不知道“词和上下文的关系”。计算当前token对序列里其他的token的重要程度。,需要缓存之前的keys(KV cache),需要缓存之前的values(KV cache)多个head分享一组K, V,但是有自己的Q。

2025-11-25 18:54:47 547

原创 javaSE

继承就是子类继承父类的特征和行为(属性和方法)。

2025-11-20 04:59:52 776

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除