自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 收藏
  • 关注

原创 矩阵空间中的标准基矩阵

(Standard Basis Matrices)是指一组能够线性组合生成整个矩阵空间的。这些基矩阵类似于向量空间中的标准单位向量(如 e1,e2,…),但适用于矩阵空间。矩阵空间(如 Rm×nR。个这样的基矩阵 Eij。任意矩阵 A∈Rm×n。设 A=[35−12]

2025-09-02 22:21:14 1208

原创 多模态数据对齐的数学原理

总而言之,多模态数据对齐的核心是通过**对比学习**或**生成学习**,将不同模态的数据映射到一个**共享的语义空间**中,并用**InfoNCE**等损失函数来优化模型,使其在该空间中相关的数据点靠近,不相关的数据点远离。* **代表模型**:**Stable Diffusion**, **DALL-E** (部分)。未来方向包括开发更高效的**自监督**和**弱监督**学习方法。* **损失函数**:通常使用 **InfoNCE Loss**(也称为对比损失),这是多模态对比学习的基石。

2025-09-02 02:30:00 1303

原创 Vit工作主要流程的数学原理

摘要:Vision Transformer(ViT)采用Transformer编码器架构处理图像,先将图像分割为块并线性投影为向量序列,添加位置编码和[class]标记后输入编码器。编码器通过多头自注意力机制实现全局建模,配合MLP和残差连接进行特征变换。ViT缺乏CNN的归纳偏置,需大量数据训练,但具有优秀的可扩展性。其平方级计算复杂度限制了高分辨率应用,但开创了视觉任务的序列建模新范式,成为CLIP等基础模型的核心组件。(150字)

2025-08-30 17:43:48 750

原创 视频类和图形类数据是如何转换为向量的?

摘要:视频和图形数据向量化是多模态处理的核心技术。视频数据通过分解为帧序列,利用CNN、ViT或CLIP提取特征,再使用时序模型(如3DCNN、Transformer)建模动态信息,最终通过池化或注意力机制生成向量表示。图形数据则可通过栅格化+图像特征提取、图神经网络(GNN)或序列模型(如Transformer)转化为向量,保留结构信息。常用工具包括C3D、CLIP、GCN等,应用场景涵盖跨模态检索与生成。未来方向聚焦计算效率优化、结构信息保留及轻量化部署。

2025-08-24 20:40:47 863

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除