深入理解Embedding技术-什么是Embedding?

核心概念解析

什么是Embedding?

​本质定义​​:
一种将高维度非结构化数据(文本/图像/视频等)映射为低维度连续向量的机器学习技术,构建起现实世界与数学空间的桥梁。

​技术特点​​:

  • 生成N维实值向量(典型维度范围:128-4096)
  • 保留原始数据的语义特征
  • 支持向量运算(如:King - Man + Woman ≈ Queen

资料推荐

核心价值

# 数据转换示意
输入数据 → Embedding模型 → 向量表示

典型处理流程

  1. 原始数据输入(文本/图片/视频等)
  2. 特征提取(NLP中的tokenization,CV中的卷积特征)
  3. 嵌入层处理(神经网络参数学习)
  4. 输出固定维度向量

模型演进路线

模型类型技术突破点典型应用场景
Word2Vec上下文预测机制词级别语义分析
Glove全局共现矩阵分解文档主题建模
FastText子词(subword)表征形态丰富语言处理
大模型Embedding多模态联合训练跨模态检索

主流模型详解

1. Word2Vec

核心架构

  • CBOW(连续词袋模型):通过上下文预测中心词
  • Skip-gram:通过中心词预测上下文

技术局限

  • 无法处理未登录词(OOV)
  • 忽略词序信息

2. Glove模型

GloVe 模型损失函数

该公式表示 GloVe (Global Vectors) 模型的优化目标函数:

J = ∑ i , j = 1 V f ( X i j ) ( w i T w ~ j + b i + b ~ j − log ⁡ X i j ) 2 J = \sum_{i,j=1}^V f(X_{ij}) \left( w_i^T \tilde{w}_j + b_i + \tilde{b}_j - \log X_{ij} \right)^2 J=i,j=1Vf(Xij)(wiTw~j+bi+b~jlogXij)2

​公式解析​​:

符号含义
$ V $词表大小
$ X_{ij} $单词i与j的共现频次
$ f(X_{ij}) $加权函数(抑制高频词影响)
$ w_i, \tilde{w}_j $主/辅词向量
$ b_i, \tilde{b}_j $偏置项

​关键设计特点​​:

  1. 基于全局词共现统计(非局部窗口)
  2. 对数变换处理共现频次
  3. 基于语料库全局统计
  4. 结合矩阵分解与概率模型优势
  5. 在词类比任务中表现优异

3. FastText

核心突破

  • 字符级n-gram特征提取(3≤n≤6)
  • 支持OOV词向量合成
  • 训练速度比Word2Vec快5-10倍

4. 大模型Embedding(以text-embedding-ada-002为例)

参数项技术规格
输入长度最大8191 tokens
输出维度1536维稠密向量
训练数据多语言混合语料库
特殊能力支持跨模态对齐

资料推荐

应用优势

  • 上下文感知("bank"在金融/地理场景不同编码)
  • 零样本迁移学习能力
  • 多语言统一向量空间

注:现代Embedding技术已形成传统词嵌入→上下文嵌入→多模态嵌入的演进路径,向量质量提升带来下游任务准确率30%-60%的增长。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值