浙大疏锦行-CSDN博客

原创 bert如何理解？

原始文本经分词、截断后的真实内容（不含。

2025-01-31 02:45:54 1235

q = self.q_linear(x).view(seq_len, n_heads, d_k) # 拆分为 [seq_len, 4, 192]pe[:, 0::2] = torch.sin(position * div_term) # 偶数维正弦。：为每个汉字分配唯一整数编号（如“我”→1024，“你”→2048），形成词典映射。：主流模型固定层数（如BERT-base为12层），过深会导致训练困难且收益递减。：通过多头注意力捕捉全局依赖，残差连接稳定训练，前馈网络增强非线性。

2025-01-31 02:16:04 1574

原创第1问：bert算大模型么？

作为第一代基于Transformer的预训练模型，BERT连接了传统小模型与现代大模型的技术演进。相较于传统模型（如LSTM、Word2Vec），BERT参数量显著更大，但在当时属于“大模型”。在参数量、任务能力、训练成本上，BERT更接近“中等模型”，适合作为理解大模型技术的入门案例。：通常指百亿（10B）至万亿（1T）参数（如GPT-3：175B，LLaMA-2：70B）。参数量（1.1亿~3.4亿）远低于现代大模型，但远高于传统小模型（如Word2Vec）。，介于传统小模型与现代大模型之间。

2025-01-30 15:46:20 579

原创第2问：预训练模型在深度学习和大模型中的差异点

之前深度学习的时候，我们说的预训练常常是在做迁移学习的，把一些经典的训练好的模型作为基准模型，然后针对新的数据进一步训练，但是大模型的预训练不是这个意思，从海量无标注数据中学习通用知识（如语言规律、视觉特征），核心方法为（如BERT的掩码预测、GPT的下一个词生成）。：在预训练模型基础上，通过（SFT）和（RLHF）对齐人类偏好或任务需求，提升模型输出质量与可控性。

2025-01-30 15:40:42 1962

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

weixin_45655710的博客

原创 Python打卡训练营介绍

原创 bert如何理解？

原创 transformer的编码器部分如何理解？

原创第1问：bert算大模型么？

原创第2问：预训练模型在深度学习和大模型中的差异点

空空如也

空空如也

原创 Python打卡训练营介绍

原创 bert如何理解？

原创 transformer的编码器部分如何理解？

原创 第1问：bert算大模型么？

原创 第2问：预训练模型在深度学习和大模型中的差异点

空空如也

空空如也

原创第1问：bert算大模型么？

原创第2问：预训练模型在深度学习和大模型中的差异点