第二部分
六、向量检索与文档问答
1. 向量模型部署(nomic-embed-text)
▶ 模型特性说明
• 核心作用:将文本转换为高维向量,用于语义相似度计算
• 运行模式:无需单独后台运行,由Ollama自动管理
• 存储路径:下载后存储在~/.ollama/models
目录
• 内存占用:约1.2GB内存
▶ 详细安装步骤
# 步骤1:拉取模型(需保持Ollama服务运行)
ollama pull nomic-embed-text
# 查看下载进度(新开终端执行)
watch -n 1 "du -sh ~/.ollama/models/manifests/registry.ollama.ai/*"
# 输出示例:
# 1.2G /root/.ollama/models/manifests/registry.ollama.ai/nomic-embed-text
# 步骤2:验证安装
ollama list
# 应显示:
# NAME SIZE MODIFIED
# nomic-embed-text 1.2 GB 3 minutes ago
# 步骤3:API调用测试
curl http://localhost:11434/api/embeddings -d '{
"model": "nomic-embed-text",
"prompt": "人工智能的发展历程"
}'
# 返回的JSON中包含1536维向量数据
2. 知识库管理实战
▶ 文档预处理(格式要求)
格式 | 预处理命令 | 说明 |
---|---|---|
pdftotext 手册.pdf |
转换为纯文本(需安装poppler-utils) | |
Word | libreoffice --headless --convert-to txt 文档.docx |
需安装LibreOffice |
网页 | lynx -dump 网页.html > 网页.txt |
提取正文内容 |
# 安装文档处理工具
yum install poppler-utils libreoffice lynx -y
# 示例:将PDF转换为文本
pdftotext 产品手册.pdf 产品手册.txt
# 创建结构化知识库
mkdir -p ~