自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

原创 Python打卡训练营介绍

python打卡训练营

2025-04-05 13:58:36 551 1

原创 bert如何理解?

原始文本经分词、截断后的真实内容(不含。

2025-01-31 02:45:54 1171

原创 transformer的编码器部分如何理解?

q = self.q_linear(x).view(seq_len, n_heads, d_k) # 拆分为 [seq_len, 4, 192]pe[:, 0::2] = torch.sin(position * div_term) # 偶数维正弦。:为每个汉字分配唯一整数编号(如“我”→1024,“你”→2048),形成词典映射。:主流模型固定层数(如BERT-base为12层),过深会导致训练困难且收益递减。:通过多头注意力捕捉全局依赖,残差连接稳定训练,前馈网络增强非线性。

2025-01-31 02:16:04 1561

原创 第1问:bert算大模型么?

作为第一代基于Transformer的预训练模型,BERT连接了传统小模型与现代大模型的技术演进。相较于传统模型(如LSTM、Word2Vec),BERT参数量显著更大,但在当时属于“大模型”。在参数量、任务能力、训练成本上,BERT更接近“中等模型”,适合作为理解大模型技术的入门案例。:通常指百亿(10B)至万亿(1T)参数(如GPT-3:175B,LLaMA-2:70B)。参数量(1.1亿~3.4亿)远低于现代大模型,但远高于传统小模型(如Word2Vec)。,介于传统小模型与现代大模型之间。

2025-01-30 15:46:20 467

原创 第2问:预训练模型在深度学习和大模型中的差异点

之前深度学习的时候,我们说的预训练常常是在做迁移学习的,把一些经典的训练好的模型作为基准模型,然后针对新的数据进一步训练,但是大模型的预训练不是这个意思,从海量无标注数据中学习通用知识(如语言规律、视觉特征),核心方法为(如BERT的掩码预测、GPT的下一个词生成)。:在预训练模型基础上,通过(SFT)和(RLHF)对齐人类偏好或任务需求,提升模型输出质量与可控性。

2025-01-30 15:40:42 1895

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除