- 博客(5)
- 收藏
- 关注
原创 transformer的编码器部分如何理解?
q = self.q_linear(x).view(seq_len, n_heads, d_k) # 拆分为 [seq_len, 4, 192]pe[:, 0::2] = torch.sin(position * div_term) # 偶数维正弦。:为每个汉字分配唯一整数编号(如“我”→1024,“你”→2048),形成词典映射。:主流模型固定层数(如BERT-base为12层),过深会导致训练困难且收益递减。:通过多头注意力捕捉全局依赖,残差连接稳定训练,前馈网络增强非线性。
2025-01-31 02:16:04
1561
原创 第1问:bert算大模型么?
作为第一代基于Transformer的预训练模型,BERT连接了传统小模型与现代大模型的技术演进。相较于传统模型(如LSTM、Word2Vec),BERT参数量显著更大,但在当时属于“大模型”。在参数量、任务能力、训练成本上,BERT更接近“中等模型”,适合作为理解大模型技术的入门案例。:通常指百亿(10B)至万亿(1T)参数(如GPT-3:175B,LLaMA-2:70B)。参数量(1.1亿~3.4亿)远低于现代大模型,但远高于传统小模型(如Word2Vec)。,介于传统小模型与现代大模型之间。
2025-01-30 15:46:20
467
原创 第2问:预训练模型在深度学习和大模型中的差异点
之前深度学习的时候,我们说的预训练常常是在做迁移学习的,把一些经典的训练好的模型作为基准模型,然后针对新的数据进一步训练,但是大模型的预训练不是这个意思,从海量无标注数据中学习通用知识(如语言规律、视觉特征),核心方法为(如BERT的掩码预测、GPT的下一个词生成)。:在预训练模型基础上,通过(SFT)和(RLHF)对齐人类偏好或任务需求,提升模型输出质量与可控性。
2025-01-30 15:40:42
1895
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人