「Mac畅玩AIGC与多模态05」部署篇03 - 在 Mac 上部署本地向量化模型（Embedding Models）

最新推荐文章于 2025-04-30 17:29:39 发布

SoraLuna

最新推荐文章于 2025-04-30 17:29:39 发布

阅读量1.2k

点赞数 13

分类专栏： Mac畅玩AIGC与多模态文章标签： macos AIGC embedding

本文链接：https://blog.csdn.net/weixin_44217688/article/details/147596758

版权

一、概述

本篇介绍如何在 macOS 环境下，为 Dify 平台部署本地向量化模型（Embedding Models），支持知识库文档向量化、语义检索与智能体上下文增强。向量化模型是实现知识库问答与 RAG（检索增强生成）应用的基础组件。

二、部署流程

1. 环境准备

确认 Docker Desktop 正常运行：

docker info

cd ~/dify/dify/docker

💡 确保 Dify 主服务已部署完成，且基础模型服务（如 DeepSeek）已接入成功。

2. 拉取本地向量化模型

在终端执行以下命令拉取 Ollama 支持的向量化模型，例如：

ollama pull nomic-embed-text

拉取完成后可通过以下命令查看本地模型列表：

ollama list

确认向量化模型已成功本地存在。

3. 配置 `.env` 文件

在

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

SoraLuna

关注关注

13
点赞
踩
19

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
打赏
打赏
打赏举报

举报

专栏目录

多模态大模型：技术原理与实战部署流程

AI天才研究院

06-05

1014

多模态大模型：技术原理与实战部署流程 1.背景介绍 1.1 人工智能发展历程人工智能(Artificial Intelligence, AI)是当代科技发展的前沿领域,旨在使机器能够模仿人的认知功能,如学习、推理、感知、规划等。自20

文本向量模型（Text Embedding Models）

AGI×大数据，开启智能时代的认知跃迁；解码AGI，赋能数据驱动的智能革命。

11-14

1343

文本向量化，词嵌入，Word2Vec，GloVe，BERT，Transformer，自然语言处理，深度学习 1. 背景介绍在当今数据爆炸的时代，文本数据已成为信息的主要来源。如何有效地处理和理解这些文本数据对于人工智能的发展至关重要。传统的文本处理方法通常依赖于手工设计的特征，但这

参与评论您还未登录，请先登录后发表或查看评论

【大模型】使用 Xinference 部署本地模型，从GPU服务器到本地知识库搭建Dify【LLM大语言模型（glm-4-9b-chat）、Rerank 模型、Embedding（向量）模型】

热门推荐

起而行动，方能平定心中的惶恐

09-04

1万+

本文会用到博主写的一些线上脚本，如果搭建者时纯内网的话，可能需要手动压缩镜像，然后解压镜像，才能正常部署本文从GPU服务器获取、到 nvidia-docker的安装、再到Xinference 部署私有化三个模型，最后搭建dify（供从 Agent 构建到 AI workflow 编排、RAG 检索、模型管理等能力，轻松构建和运营生成式 AI 原生应用）、最后再配置实例dify，配置dify实例，整合三个模型，最后实现知识库搭建。

Mac本地部署大模型体验AIGC能力

m0_63171455的博客

07-14

1438

仅基于Transformer解码器的大模型（图中的蓝色部分），例如，OpenAI的GPT系列、Meta的LLaMa、Google的PaLM等；仅基于Transformer编码器的大模型（图中的粉丝部分），例如，Google的BERT、Meta的RoBERTa等；同时基于Transformer编码器和解码器的大模型（图中的绿色部分），例如，Meta的BART、Google的T5、清华大学的GLM/ChatGLM等。

大一统！多模态模型评测框架lmms-eval！

python1234_的博客

08-27

1378

来自南洋理工大学 LMMs-Lab 的研究人员联合开源了 LMMs-Eval，这是一个专为多模态大型模型设计的评估框架，为多模态模型（LMMs）的评测提供了一站式、高效的解决方案。转载自丨机器之心随着大模型研究的深入，如何将其推广到更多的模态上已经成为了学术界和产业界的热点。最近发布的闭源大模型如 GPT-4o、Claude 3.5 等都已经具备了超强的图像理解能力，LLaVA-NeXT、MiniCPM、InternVL 等开源领域模型也展现出了越来越接近闭源的性能。

文本向量化（Embedding）模型

翱翔-蓝天

03-24

1251

将文本（单词、句子、段落、文档）通过特定模型映射为稠密向量（Dense Vector），用于表示文本的语义信息。BGE（BAAI General Embedding）系列出自：北京智源研究院（BAAI）版本：bge-small（256维，轻量）bge-base（768维，效果平衡）bge-large（1024维，效果最优）亮点：针对检索任务优化多语言支持（M3版本）文本检索与RAG问答强项适合场景：知识库、问答系统、相似度计算场景推荐模型推荐数据库中文RAG检索。

搭建个人知识库 | 手把手教你本地部署大模型

2301_81888214的博客

11-28

1192

今天给大家分享的是手把手教你如何部署本地大模型以及搭建个人知识库

BAAI/BGE-VL多模态模型部署、原理、代码详解（实现图像文本混合检索），包含BEG-VL多模态模型的本地部署详细步骤及代码原理解析

weixin_59838768的博客

03-11

696

BGE-VL-base/Large是基于CLIP训练的模型，BGE-VL-MLLM-S1/S2是基于LLM训练的二者参数量相差较大。huggingface链接 https://huggingface.co/BAAI/BGE-VL-base modelscope链接 https://www.modelscope.cn/models/BAAI/BGE-VL-base该模型基于CLIP，支持多模态检索任务，其中包含Base(参数量149M)和La

ChatGLM3-6B大模型的部署与使用教程（保姆级）

python1234567_的博客

09-06

1538

ChatGLM3 是智谱AI和清华大学 KEG 实验室联合发布的新一代对话预训练模型。ChatGLM3-6B 是 ChatGLM3 系列中的开源模型，具有对话流畅、部署门槛低等众多优秀特性。本文实验的配置：GPU：英伟达 3090 24G显存操作系统：centos 71、代码地址：2、下载对应的模型文件modelscope对应的模型地址：文件大小11.64G，根据个人网速不同，本人大约等待30分钟后，下载完成；

万字长文总结多模态大模型最新进展（Modality Bridging篇）

人工智能讲师分享前沿技术

07-30

725

因为该层专注于整合 [CLS] 特征以用于对比学习。MLP adapter：a two-layer SwiGLU MLP，用于将ViT的输出映射到与文本特征相同的空间。所有的图像特征在语言模型中共享相同的「位置编码 id」。Visual expert module：在 LLM 的每一层中引入可训练的 visual expert，其包含专门处理 image feature 的「QKV 矩阵」和「MLP 层」，以实现深度的视觉-语言特征对齐。

国产大模型图文搜索系统实战：Qwen2.5-Omni 多模态向量检索 × API 封装全流程复现

在信息的熵增中，记录结构、重建秩序。技术思想者的笔记，系统构建者的注释。

03-31

884

本篇带你从零搭建一个国产大模型驱动的图文搜索系统，以 Qwen2.5-Omni 为基础，完成图像+文本向量提取、FAISS / Milvus 检索系统构建、检索接口服务封装、多端调用适配等完整流程。支持上传图片 + 提问，快速召回相似图文内容，并可扩展为 RAG 知识库、图题检索系统或图文审阅平台。适合想将国产大模型落地多模态场景的开发者、创业者、AI应用工程师深入参考使用。

MAC如何安装多版本jdk(以8,11,17为例）

niesiyuan000的博客

04-28

222

MAC如何安装多版本jdk(以8,11,17为例）_mac安装jdk17-CSDN博客

「Mac畅玩AIGC与多模态02」部署篇01 - 在 Mac 上部署 Ollama + Open WebUI

天月智联

04-27

1050

本篇介绍如何在 macOS 环境下本地部署 Ollama 推理服务，并通过 Open WebUI 实现可视化交互界面。该流程无需 CUDA 或专用驱动，适用于 M 系列或 Intel 芯片的 Mac，便于快速测试本地大语言模型能力。通过本篇部署流程，已完成在 macOS 下基于 Ollama 本地推理服务的配置，并结合 Open WebUI 搭建可视化模型调用平台，适用于本地轻量测试、API 对接与插件开发等场景。

深度体验两年半！MAC 硬件好物分享｜屏幕、挂灯、键盘、鼠标

面向生活编程

04-29

1058

最近快五一放假了，所以写点轻松一点的文章～这篇文章就介绍这两年半来，我一直在用MAC硬件搭子！！而买这些硬件设备的钱都是一行行代码写出来的!!我的MAC是21款14寸 m1 pro 32+512版本，22年年底在闲鱼买的，之前的文章介绍过在mac上我常用的软件（有兴趣的同学可以翻翻之前的记录）。

【报错问题】 macOS 的安全策略（Gatekeeper）阻止了未签名的原生模块（bcrypt_lib.node）加载

weixin_44174312的博客

04-29

273

这个错误是由于导致的。

解决MacOS端口被占用问题

C_V_Better的博客

04-28

850

通过本文介绍的方法，你可以轻松解决 MacOS 端口被占用的问题。无论是通过命令行工具快速定位并终止进程，还是修改应用程序的配置以使用其他端口，都能有效地帮助你恢复正常的工作流程。在日常开发中，掌握这些技巧可以大大提高你的工作效率，让你不再为端口冲突问题烦恼。

抓取工具Charles配置教程（mac电脑+ios手机）

DwZ735660836的博客

04-30

308

mac电脑上配置抓取工具Charles的教程

IP 地址和 MAC 地址是如何转换的

2302_77871725的博客

04-30

472

在计算机网络的世界里，IP 地址和 MAC 地址就像是网络设备的两个重要 “身份证”，各自承担着不同的职责。IP 地址基于网络层，用于在复杂的网络环境中定位设备；MAC 地址则是固化在网卡上的物理地址，是设备的硬件标识。那么，这两种地址之间是如何实现转换的呢？答案就藏在 ARP 协议（地址解析协议，Address Resolution Protocol）中。

[原创](现代Delphi 12指南):[macOS 64bit App开发]: [1]如何使用原生NSAlert消息框 (runModal模式)

最新发布

其实我不是代码教父,我只是猪头三

04-30

595

在使用现代 Delphi 12开发macOS 64bit应用时, 经常需要向用户展示信息、确认对话或警告提示. 虽然FireMonkey自带的对话框在跨平台场景下已能满足大部分需求, 但当追求与系统一致的原生体验时, 借助macOS原生的Cocoa框架就显得尤为重要. NSAlert是Cocoa中用于显示模态对话框的类, 其外观和行为都与系统其他应用保持一致. 借助Delphi提供的 Objective-C桥接能力, 可以直接创建并调用NSAlert, 实现与macOS原生消息框无缝集成.

多模态大模型关键技术

04-02

<think>嗯，用户让我介绍一下多模态大模型的关键技术。我需要先回忆一下多模态相关的知识，然后组织出一个结构清晰的回答。首先，多模态大模型是处理多种类型数据（比如文本、图像、音频、视频）的模型，对吧？那关键技术应该包括模态融合、表示学习、对齐这些方面。用户可能对多模态不太了解，所以需要从基础讲起。但用户也可能有一定的背景，所以需要深入关键技术点。首先得明确多模态大模型的定义，然后分点介绍各个关键技术。可能需要列举几个核心技术，比如模态对齐、跨模态表示、预训练方法、融合策略、知识蒸馏、多任务学习、生成模型、数据集和评估方法等。接下来每个技术点需要详细说明。比如模态对齐，要解释为什么对齐重要，以及如何实现，比如使用对比学习或者注意力机制。跨模态表示可能需要提到共享的嵌入空间，像CLIP那样。预训练方法的话，像多任务预训练目标，比如掩码语言模型和图像重建的结合。融合策略分早期、中期和晚期融合，需要简单说明每种方法的优缺点。知识蒸馏可能涉及如何用小模型来模仿大模型，处理多模态数据。多任务学习要说明不同任务如何相互促进。生成模型可能包括扩散模型或者GAN在多模态中的应用。数据集和评估方法部分，需要提到常用的数据集和评价指标，比如BLEU、CIDEr等。还要注意用户提到的格式要求，比如数学表达式用$...$，独立公式用$$...$$，但用户的问题中没有数学内容，可能不需要太多公式。但如果有涉及的话，比如对比学习的损失函数，可能需要用LaTeX表示，比如$\mathcal{L}_{\text{对比}} = ...$。另外，回答结构要清晰，分点列出关键技术，每个技术点下再分小点解释。可能需要用序号或者加粗标题来区分。确保用中文，语言简洁明了，帮助用户逐步理解。需要检查是否有遗漏的关键技术，比如模态之间的转换、多模态推理能力，或者最新的技术进展。比如Transformer架构在多模态中的应用，像ViT和BERT的结合。还有模型架构的创新，如Flamingo或者GPT-4V这样的模型如何处理多模态输入。还要考虑多模态应用的挑战，比如数据异构性、计算资源、模态缺失的鲁棒性，这些可能也需要提及，但用户主要问的是关键技术，所以可能放在最后作为挑战或未来方向。最后确保每个部分都准确，没有技术错误。比如对比学习确实用于对齐，CLIP的共享嵌入空间是正确的例子。预训练任务如掩码模态建模是对的。生成模型中扩散模型的应用，如DALL-E和Stable Diffusion的例子。总结一下，回答的结构应该是先定义多模态大模型，然后分点介绍关键技术，每个技术点详细说明，最后可能提一下挑战和应用，但用户的问题重点是关键技术，所以重点放在关键技术的介绍上。确保符合格式要求，不使用Markdown，用自然的中文分段落，结构清晰。</think>多模态大模型是能够处理并关联多种模态数据（如文本、图像、音频、视频等）的人工智能模型。其核心技术涉及**模态对齐、跨模态表示、联合建模**等方向，以下是关键技术点及实现原理的逐步解析： --- ### 一、模态对齐（Modality Alignment） **目标**：建立不同模态数据间的语义关联。 **关键技术**： 1. **对比学习（Contrastive Learning）** - 通过对比正负样本对，拉近相关模态（如图像-文本对）的嵌入距离，推开无关模态。 - 典型模型：CLIP（对比语言-图像预训练），其损失函数为： $$\mathcal{L}_{\text{对比}} = -\log \frac{e^{s(I,T)/\tau}}{\sum_{j=1}^N e^{s(I,T_j)/\tau}}$$ 其中$s(I,T)$为图像$I$与文本$T$的相似度，$\tau$为温度系数。 2. **注意力机制对齐** - 使用跨模态注意力（Cross-Modality Attention）动态捕捉模态间依赖关系，例如将图像区域特征与文本词向量关联。 --- ### 二、跨模态表示学习（Cross-Modal Representation） **目标**：将不同模态映射到统一的语义空间。 **实现方法**： 1. **共享嵌入空间（Shared Embedding Space）** - 通过编码器（如ViT处理图像、BERT处理文本）将不同模态映射到同一空间，使相似语义的跨模态数据靠近。 2. **模态转换（Modality Translation）** - 利用生成模型（如VAE、GAN）实现模态间转换，例如图像描述生成（Image Captioning）或文本生成图像（Text-to-Image）。 --- ### 三、多模态预训练（Multimodal Pre-training） **目标**：通过大规模数据预训练模型，学习通用跨模态能力。 **核心策略**： 1. **多任务预训练目标** - 联合训练掩码语言建模（MLM）、图像区域掩码（Masked Region Modeling）、跨模态匹配（Cross-Modal Matching）等任务。 2. **模型架构创新** - **单塔 vs 双塔架构**：单塔（如FLAVA）直接融合多模态输入；双塔（如CLIP）分别编码后对齐。 - **Transformer扩展**：在标准Transformer中增加跨模态注意力层（如Flamingo模型的感知器-重采样器模块）。 --- ### 四、模态融合（Modality Fusion） **目标**：有效整合多模态信息进行推理。 **融合策略**： 1. **早期融合（Early Fusion）** - 在输入层直接拼接多模态特征，适合强相关模态（如视频+音频）。 2. **晚期融合（Late Fusion）** - 各模态独立处理后再融合结果，适合异构模态（如文本+传感器数据）。 3. **动态融合（Dynamic Fusion）** - 根据输入内容自适应调整融合权重（如使用门控机制）。 --- ### 五、知识蒸馏与高效推理 **挑战**：多模态模型参数量大，计算成本高。 **解决方案**： 1. **跨模态知识蒸馏** - 将大模型的知识迁移到轻量化模型中，保持多模态理解能力。 2. **模型压缩技术** - 量化（Quantization）、剪枝（Pruning）等技术降低推理成本。 --- ### 六、多模态生成技术 **应用场景**：文本生成图像（DALL·E）、视频生成（Make-A-Video）等。 **核心技术**： 1. **扩散模型（Diffusion Models）** - 通过逐步去噪过程生成高质量多模态数据（如Stable Diffusion）。 2. **条件式生成** - 使用交叉注意力机制将文本条件注入图像生成过程。 --- ### 七、数据集与评估方法 1. **关键数据集**： - MS-COCO（图像-文本对）、HowTo100M（视频-语音-文本）、AudioSet（音频-标签）。 2. **评估指标**： - 检索任务：Recall@K、MRR；生成任务：BLEU、CIDEr、FID。 --- ### 挑战与未来方向 1. **模态缺失鲁棒性**：处理实际场景中部分模态缺失的问题。 2. **细粒度对齐**：实现实体级（如物体-词语）而非样本级的对齐。 3. **因果推理**：超越相关性学习，实现多模态因果推理。 多模态大模型正推动AI向更接近人类认知的方向发展，但其技术落地仍需突破计算效率、可解释性等瓶颈。

「Mac畅玩AIGC与多模态05」部署篇03 - 在 Mac 上部署本地向量化模型（Embedding Models）

一、概述

二、部署流程

1. 环境准备

2. 拉取本地向量化模型

3. 配置 .env 文件

3. 配置 `.env` 文件