深入理解Embedding技术-什么是Embedding？

yibuapi_com

于 2025-05-10 14:15:31 发布

阅读量1k

点赞数 25

分类专栏： # AI科普文章标签： embedding langchain chatgpt python claude 中转API apikey

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/yibuapi_com/article/details/147852548

版权

AI科普专栏收录该内容

10 篇文章

订阅专栏

核心概念解析

什么是Embedding？

本质定义：
一种将高维度非结构化数据（文本/图像/视频等）映射为低维度连续向量的机器学习技术，构建起现实世界与数学空间的桥梁。

技术特点：

生成N维实值向量（典型维度范围：128-4096）
保留原始数据的语义特征
支持向量运算（如：King - Man + Woman ≈ Queen）

资料推荐

核心价值

# 数据转换示意
输入数据 → Embedding模型 → 向量表示

典型处理流程

原始数据输入（文本/图片/视频等）
特征提取（NLP中的tokenization，CV中的卷积特征）
嵌入层处理（神经网络参数学习）
输出固定维度向量

模型演进路线

模型类型	技术突破点	典型应用场景
Word2Vec	上下文预测机制	词级别语义分析
Glove	全局共现矩阵分解	文档主题建模
FastText	子词(subword)表征	形态丰富语言处理
大模型Embedding	多模态联合训练	跨模态检索

主流模型详解

1. Word2Vec

核心架构

CBOW（连续词袋模型）：通过上下文预测中心词
Skip-gram：通过中心词预测上下文

技术局限

无法处理未登录词(OOV)
忽略词序信息

2. Glove模型

GloVe 模型损失函数

该公式表示 GloVe (Global Vectors) 模型的优化目标函数：

$\sum_{i,j=1}^V f(X_{ij}) \left( w_i^T \tilde{w}_j + b_i + \tilde{b}_j - \log X_{ij} \right)^2$

公式解析：

符号	含义
$ V $	词表大小
$ X_{ij} $	单词i与j的共现频次
$ f(X_{ij}) $	加权函数（抑制高频词影响）
$ w_i, \tilde{w}_j $	主/辅词向量
$ b_i, \tilde{b}_j $	偏置项

关键设计特点：

基于全局词共现统计（非局部窗口）
对数变换处理共现频次
基于语料库全局统计
结合矩阵分解与概率模型优势
在词类比任务中表现优异

3. FastText

核心突破

字符级n-gram特征提取（3≤n≤6）
支持OOV词向量合成
训练速度比Word2Vec快5-10倍

4. 大模型Embedding（以text-embedding-ada-002为例）

参数项	技术规格
输入长度	最大8191 tokens
输出维度	1536维稠密向量
训练数据	多语言混合语料库
特殊能力	支持跨模态对齐

资料推荐

应用优势

上下文感知（"bank"在金融/地理场景不同编码）
零样本迁移学习能力
多语言统一向量空间

注：现代Embedding技术已形成传统词嵌入→上下文嵌入→多模态嵌入的演进路径，向量质量提升带来下游任务准确率30%-60%的增长。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。