标量/向量/矩阵/张量/范数详解及其在机器学习中的应用

Psycho_MrZhang

已于 2025-05-07 15:17:39 修改

阅读量692

点赞数 12

分类专栏：数学文章标签：矩阵机器学习线性代数

于 2025-05-07 15:15:24 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_44714085/article/details/147766788

版权

数学专栏收录该内容

12 篇文章

订阅专栏

标量（Scalar）、向量（Vector）、矩阵（Matrix）、张量（Tensor）与范数（Norm）详解及其在机器学习中的应用

1. 标量（Scalar）

定义：标量是单个数字，仅具有大小（Magnitude），没有方向。
- 数学表示：如 $a = 5$ , $b = - 3.2$
- 特点：零维数据（0D Tensor）。
机器学习中的应用：
- 模型参数：如线性回归中的偏置项（Bias）。
- 损失函数输出：如均方误差（MSE）的结果是一个标量。
- 超参数：学习率（Learning Rate）、正则化系数（Regularization Coefficient）等。

2. 向量（Vector）

定义：向量是一维数组，既有大小又有方向，表示空间中的点或变化量。
- 数学表示：如 $\mathbf{v} = [v_1, v_2, \dots, v_n]^T$
- 特点：一维数据（1D Tensor），可看作标量的有序集合。
机器学习中的应用：
- 特征向量（Feature Vector）：数据样本的数值化表示（如图像的像素值、文本的词频统计）。
- 嵌入（Embedding）：将离散数据（如单词、类别）映射为低维向量（如Word2Vec、GloVe）。
- 梯度（Gradient）：优化算法中参数更新的方向（如随机梯度下降SGD）。
- 输出结果：分类任务中概率分布的输出（如Softmax后的向量）。

3. 矩阵（Matrix）

定义：矩阵是二维数组，由行和列组成，可表示线性变换或数据关系。
- 数学表示：如 $\mathbf{A} = \begin{bmatrix} a_{11} & a_{12} \\ a_{21} & a_{22} \end{bmatrix}$
- 特点：二维数据（2D Tensor），矩阵运算（乘法、逆、特征分解）是核心工具。
机器学习中的应用：
- 数据集表示：每行代表样本，每列代表特征（如表格型数据）。
- 权重矩阵（Weight Matrix）：神经网络中层与层之间的连接参数。
- 核方法（Kernel Methods）：支持向量机（SVM）中通过核矩阵计算高维相似性。
- 矩阵分解：推荐系统（协同过滤）中将用户-物品评分矩阵分解为低秩矩阵。

4. 张量（Tensor）

定义：张量是向量和矩阵的高维推广，表示多维数组。
- 数学表示：三维张量 $\mathcal{T} \in \mathbb{R}^{n \times m \times k}$
- 特点：N维数据（ND Tensor），如图像（3D：高×宽×通道）、视频（4D：帧×高×宽×通道）。
机器学习中的应用：
- 图像处理：RGB图像表示为三维张量（如 $224 \times 224 \times 3$ 。
- 深度学习输入/输出：卷积神经网络（CNN）中张量在层间流动（如特征图Feature Maps）。
- 自然语言处理（NLP）：词嵌入矩阵（如 $\text{句子长度} \times \text{词向量维度}$ 。
- 高阶关系建模：张量分解用于知识图谱（如TransE模型）。

5. 范数（Norm）

定义：范数是向量或矩阵的“长度”度量，用于量化大小、距离或复杂度。
- 常见类型：
  - L0范数：非零元素个数（常用于稀疏性约束）。
  - L1范数：绝对值之和（ $||\mathbf{x}||_1 = \sum |x_i|$ ，稀疏性正则化。
  - L2范数：欧几里得范数（ $||\mathbf{x}||_2 = \sqrt{\sum x_i^2}$ ，防止过拟合。
  - L∞范数：最大绝对值（ $||\mathbf{x}||_\infty = \max |x_i|$ 。
  - Frobenius范数：矩阵版本的L2范数（ $||\mathbf{A}||_F = \sqrt{\sum a_{ij}^2}$ 。
机器学习中的应用：
- 正则化（Regularization）：
  - L1正则化（Lasso）：使模型参数稀疏化，选择重要特征。
  - L2正则化（Ridge）：限制参数大小，防止过拟合。
- 优化算法：
  - 梯度裁剪（Gradient Clipping）：用L2范数限制梯度爆炸。
  - 距离计算：K近邻（KNN）中的欧氏距离（L2）或曼哈顿距离（L1）。
- 模型评估：
  - 均方误差（MSE）等价于预测值与真实值差向量的L2范数平方。
- 嵌入学习：对比学习（Contrastive Learning）中用余弦相似度（基于L2归一化）。

总结：机器学习中的核心角色

概念	核心作用	典型应用
标量	参数、超参数、损失值	学习率、损失函数输出
向量	特征表示、梯度更新	特征向量、嵌入向量
矩阵	数据存储、线性变换	权重矩阵、协方差矩阵
张量	高维数据建模	图像、视频、特征图
范数	正则化、距离度量	L1/L2正则化、KNN

扩展思考

张量与深度学习框架：PyTorch/TensorFlow中所有数据均以张量形式处理，支持GPU加速。
范数选择的影响：L1稀疏性适合特征选择，L2稳定性适合参数约束。
高阶应用：张量网络（Tensor Networks）用于压缩模型或建模复杂关系。

博客等级

码龄6年

100
原创

1292
点赞

1386
收藏

575
粉丝

关注

私信

热门文章

分类专栏

底层原理 11篇
数学 12篇
transformers 17篇
Pytorch 1篇
FineTuning 2篇
ai 13篇
工具 8篇
embedding 4篇
rag 5篇
agent 3篇
langchain 14篇
langgraph 3篇
prompt 3篇
Docker 8篇
Django 2篇
DockerFIle 1篇
Spring 1篇
IO多路复用 2篇
知识笔记 10篇
Java 5篇
线程/进程 4篇
MySQl 14篇
Python 5篇
数据结构 1篇
高效的MySQl 9篇
Git 1篇

最新评论

RetinaFace/Yolo8人脸检测和实现
Psycho_MrZhang: arcface本身也是做人脸识别的, yolo8face人脸画框比较精确, 但是不支持embedding, 博客这套方案是最优解, 先用yolo8识别大概位置, 然后交给arcface再识别, 如果arcface识别不出来可以尝试yolo8画框后裁剪大一点, arcface的模型预训练地址(https://github.com/deepinsight/insightface/tree/master/model_zoo), 可以找下有亚洲面孔的, 这个模型只能玩一玩, 如果工程上用还需要针对亚洲面孔数据集微调
RetinaFace/Yolo8人脸检测和实现
冬眠的鱼鱼: 我想问一下，我在用yolo8-face截取人脸后，对应人脸用arcface识别不出来是为什么，但是图片直接可以用arcface识别，然后你arcface这个模型去哪下载的，我在github上只看到antelopev2的
Maven简介
CSDN-Ada助手: 不知道 Java 技能树是否可以帮到你：https://edu.csdn.net/skill/java?utm_source=AI_act_java

大家在看

最新文章

2025

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。