Part 1
初识巨人与他们的小伙伴们
1. 星球主宰:AI (人工智能)
- 形象速写: 一个穿着白大褂,戴着眼镜,手里拿着各种工具(锤子、画笔、麦克风、扳手)的发明家大叔,像哆啦A梦一样万能(理想中)。
- 灵魂台词: “叮咚!我是AI,全名人工智能!我的终极梦想?让机器像人一样思考、干活、甚至… 吹牛(嘘🤫)!别被名字唬住,我就是个‘模仿秀十级选手’。人类会学习?我也学!人类会解题?我也解!人类会画画写歌?嘿嘿,我也能整两下!(掏出工具)看,这是我的百宝箱,里面装着各种‘超能力’模型!”
- 人话翻译 (知识点): 让计算机系统模拟人类智能行为(学习、推理、决策、感知、创造)的科学与技术。目标是让机器能干人干的活,甚至干得更好(当然,目前吹牛还不算)。
2. 当红炸子鸡:LLM (大型语言模型) & LMM (多模态大模型)
- 形象速写:
LLM
: 穿着印满文字T恤、戴着厚厚词典眼镜的书呆子青年。LMM
: 酷炫潮人,戴着VR眼镜,背着画板,挂着耳机,手里还拿着个摄像头。
- LLM的内心独白 (推眼镜): “咳,在下
LLM
,大型语言模型。特长?玩转文字!看书?小意思!写小说?信手拈来!讲段子?emmm… 还在努力学习中(脸红😳)。我的大脑里装着从古至今海量的文字密码,专门负责‘理解’和‘生成’人话。你可以把我当成一个超级话痨…呃,是超级语言大师!”- 知识点提炼: 基于深度学习的模型,通过海量文本训练,掌握理解和生成自然语言的能力。ChatGPT、文心一言、通义千问都是它的明星代表。
- LMM的激情宣言 (一把搂住LLM): “嘿!书呆子,世界是彩色的!我是
LMM
,多模态大模型!我的Slogan——‘眼观六路,耳听八方’!文字?图像?声音?视频?来者不拒,统统消化!(摆pose📸)我能看图说话,听音识曲,甚至根据你的描述画个‘灵魂画作’!是不是比你有趣亿点点?” (LLM在一旁默默翻了个白眼🙄)。- 知识点提炼: 能同时处理和理解多种类型数据(模态)输入(文本、图像、音频、视频)的模型。目标是像人一样“综合感官”理解世界。
3. 语言的乐高积木:Token (标记)
- 形象速写: 一堆五颜六色、形状各异的小积木块,叽叽喳喳地蹦跳着。
- 集体口号 (七嘴八舌): “我们是
Token
!”“文字的乐高积木!”“AI世界的流通货币!”“我是‘AI’这块砖!”“我是‘爱’这块砖!”“我是‘学习’这块小砖!”“我是‘?’这块好奇砖!” - 导游解说: 看,这些小积木就是
Token
!它们是文本处理的最小单元。对你来说是一句话,对模型来说,就是被拆成的一堆小积木(可能是字、词、子词、标点)。模型的大脑只认这些积木的编号(ID)。想象一下,你给AI发的消息,其实被拆成积木,模型看着编号玩“猜猜下一个积木是啥”的游戏!- 核心考点:
- Token是模型输入的最小单位。
- 需要编码成数字模型才认识。
- 训练量巨大,动辄几十亿、几百亿Token。
- 常用
BPE
,WordPiece
等分词魔法高效拆积木。
- 核心考点:
4. 巨人的体重秤:参数级别
- 形象速写: 一个巨大的、闪烁着数字的电子体重秤,旁边站着几个愁眉苦脸的“参数管理员”。
- 体重秤播报 (机械音): “哔哔—— 175B!哔哔—— 540B!哔哔—— 体重持续飙升中!警报!警报!”
- 管理员吐槽大会:
- 😓 A:“天啊!这位LLM巨人‘体重’(参数)又创新高!175B!意思是1750亿个参数!这得吃(算)多少数据(力)啊!”
- 😫 B:“540B就是5400亿!这体重(模型复杂度/能力)是上去了,但胃口(算力需求)和占地(存储成本)也吓死人!养个‘大胖子’不容易,得掂量掂量家里的‘电费’和‘硬盘’够不够!”
- 知识点精炼:
- 参数级别:衡量大模型“体型”和“脑容量”的核心指标!
- 单位是
B
(Billion,十亿)。 - 数字越大 → 理论上越“聪明”(能学更多复杂模式)→ 但也越“难伺候”(贵!慢!占地方)。
- 灵魂拷问:选“轻量级选手”还是“重量级拳王”?看任务需求和钱包厚度!💰
5. 词义转化大师:词嵌入 (Word Embedding)
- 形象速写: 一个神秘的魔法师,手持魔杖,面前有一个沸腾的大锅(高维空间)。他正把一个个单词扔进锅里搅拌。
- 魔法吟唱: “单词啊单词,你在书本里的含义太模糊了!让我赋予你数学的灵魂!看锅!
‘国王’ - ‘男人’ + ‘女人’ ≈ ‘女王’
? 嗯…有那味儿了!‘猫’
和‘狗’
比较近?‘猫’
和‘汽车’
比较远?Perfect!向量距离即语义距离!” - 魔法原理 (知识点): 这位就是
词嵌入
大师!他的魔法是把每个单词变成一个固定长度的数字向量(想象成在高维空间的一个点📍)。魔法核心:语义相似的词,在空间里的距离就近! 这样,模型就能用数学(向量加减乘除)来理解和计算词义关系了。这是让机器真正“懂”词义的关键一步!
6. 大脑的基石:神经网络 (Neural Network)
- 形象速写: 一个极其复杂的、闪闪发光的水管网络图,信息像水流💧一样在里面流动、分流、汇聚。
- 导游比喻: 看这片“水管工”的杰作!这就是
神经网络
——AI模型的灵魂结构!模仿人脑神经元连接。信息(水流)从入口(输入层)流入,经过层层管道(隐藏层)的加工处理和分流(每个节点像个小计算器),最终从出口(输出层)流出你想要的结果(是猫🐱是狗🐶?还是“买买买💰”?)。水管(连接)的粗细(权重)决定了水流(信息)的分配,这些“粗细”就是模型要学习的核心“参数”!
7. 神经网络家族:FFNN、RNN、LSTM、GRU (四大天王)
- 形象速写: 四个风格迥异的机器人站在水管网络图旁,准备PK。
- 角色介绍 & 绝活展示:
- 🤖 FFNN (前馈神经网络):
- 人设: 耿直boy,一根筋。
- 招牌动作: 信息向前冲,永不回头!➡️
- 口号: “简单直接!一层水管的水只流向下层水管!处理图片分类啥的,我最拿手!(比如识别这是🍎还是🍐) 但别让我记流水账(序列),我记性差!” 😅
- 🤖 RNN (循环神经网络):
- 人设: 随身带个小本本📓的记事员。
- 招牌动作: 处理当前信息时,总会翻翻小本本上的“前情提要”。
- 口号: “处理像句子、股票走势这种‘有顺序’的信息是我的专长!当前水流(输入)会和我小本本上记的‘上一个状态’结合!不过…我的小本本容量有限,记不了太长的故事,容易忘掉开头(长期依赖问题)。” 🥺
- 🤖 LSTM (长短时记忆网络):
- 人设: 带着一个精密保险箱(带三个小阀门[门控])的管家。
- 招牌动作: 优雅地操作阀门,决定记什么、忘什么、输出什么。
- 口号 (得意): “哟,RNN老哥!升级版在此!我的‘记忆保险箱’🛡️可高级了!三个阀门:输入门(决定记多少新东西)、遗忘门(决定忘掉多少旧东西)、输出门(决定输出多少记忆)。有了它们
- 🤖 FFNN (前馈神经网络):