【无标题】

model.embed_tokens.weight                             
: torch.Size([128256, 4096])

model.layers.0.input_layernorm.weight                
: torch.Size([4096])
model.layers.0.self_attn.q_proj.weight                
: torch.Size([4096, 4096])
model.layers.0.self_attn.k_proj.weight                
: torch.Size([1024, 4096])
model.layers.0.self_attn.v_proj.weight                
: torch.Size([1024, 4096])
model.layers.0.self_attn.o_proj.weight                
: torch.Size([4096, 4096])
model.layers.0.post_attention_layernorm.weight        
: torch.Size([4096])
model.layers.0.mlp.gate_proj.weight                   
: torch.Size([14336, 4096])
model.layers.0.mlp.up_proj.weight                     
: torch.Size([14336, 4096])
model.layers.0.mlp.down_proj.weight                   
: torch.Size([4096, 14336])



model.norm.weight                                     
: torch.Size([4096])
lm_head.weight                                        
: torch.Size([128256, 4096])
embedding.word_embeddings.weight                    
: torch.Size([128256, 4096])

decoder.layers.0.input_layernorm.weight             
: torch.Size([4096])
decoder.layers.0.self_attention.linear_qkv.weight   
: torch.Size([6144, 4096])
decoder.layers.0.self_attention.linear_proj.weight  
: torch.Size([4096, 4096])
decoder.layers.0.pre_mlp_layernorm.weight           
: torch.Size([4096])
decoder.layers.0.mlp.linear_fc1.weight              
: torch.Size([28672, 4096])
decoder.layers.0.mlp.linear_fc2.weight              
: torch.Size([4096, 14336])





decoder.final_layernorm.weight                      
: torch.Size([4096])
output_layer.weight                                 
: torch.Size([128256, 4096])


embedding.word_embeddings.weight               
: torch.Size([64128, 4096])

decoder.layers.0.self_attention.linear_qkv.weight 
: torch.Size([3072, 4096])
decoder.layers.0.self_attention.linear_proj.weight 
: torch.Size([4096, 2048])
decoder.layers.0.mlp.linear_fc1.weight         
: torch.Size([14336, 4096])
decoder.layers.0.mlp.linear_fc2.weight         
: torch.Size([4096, 7168])
decoder.layers.0.input_layernorm.weight        
: torch.Size([4096])
decoder.layers.0.pre_mlp_layernorm.weight      
: torch.Size([4096])
*16 layers

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值