需求文档是测试工程师日常工作的核心工具,如何快速检索需求文档中的关键信息(文本、表格、图片等),并将其转化为可供 AI 查询的知识库,是提升工作效率的重要手段。本文将通过对 需求文档(docx 格式) 的处理,详细讲解如何构建一个 安全的本地知识库,并通过代码实现具体操作,确保每一步都可落地。
一、本地知识库的安全性与连接方案
在构建本地知识库时,安全性是首要考虑的因素,尤其是对于需求文档这样的敏感数据。以下是本地知识库的安全性与连接方案:
- 数据隐私:本地知识库完全在本地设备运行,避免将敏感文档上传到云端,确保数据隐私。
- 持久化存储:通过 Chroma 的持久化功能,将向量数据库以 SQLite 文件形式保存在本地磁盘。
- 访问控制:通过操作系统的权限管理(如文件夹加密、用户权限设置),限制知识库的访问。
- 脱离网络运行:知识库和向量计算完全在本地运行,无需联网即可完成所有操作。
以下所有代码均基于本地运行,适配 Windows、Mac 和 Linux 环境。
二、需求文档处理与向量化的完整流程图
针对需求文档(docx 格式),我们需要将文档中的 文本、表格、图片 等内容提取并向量化。以下是完整流程图:
+-------------------------------------------+
| 需求文档加载 |
| 使用 python-docx 提取 docx 文件内容 |
| 支持文本、表格、图片 |
+-------------------------------------------+
↓
+-------------------------------------------+
| 数据清洗 |
| 移除空行、无效字符,提取关键信息 |
+-------------------------------------------+
↓
+-------------------------------------------+
| 文本分割 |
| 将文本分割为小段(500字左右) |
| 表格转化为结构化文本 |
+-------------------------------------------+
↓
+-------------------------------------------+
| 文本向量化 |
| 使用中文预训练模型生成向量 |
+-------------------------------------------+
↓
+-------------------------------------------+
| 图片向量化 |
| 使用 OpenAI CLIP 模型生成图片向量 |
+-------------------------------------------+
↓
+-------------------------------------------+
| 存储到向量数据库 |
| 使用 Chroma 将向量和原始数据存储 |
+-------------------------------------------+
↓
+-------------------------------------------+
| 本地知识库检索 |
| 根据用户输入,检索最相关的文档片段 |
+-------------------------------------------+
三、处理需求文档的完整实例(docx 格式)
1. 环境准备
安装以下 Python 库:
pip install python-docx chromadb sentence-transformers PIL
2. 加载需求文档
使用 python-docx
提取 docx 文件中的内容(包括文本与表格)。对于图片,则使用 PIL
进行处理。
以下是提取需求文档的代码:
from docx import Document
from PIL import Image
from io import BytesIO
import os
# 提取文本和表格
def extract_text_and_tables(docx_path):
document = Document(docx_path)
texts = []
tables = []
# 提取段落文本
for paragraph in document.paragraphs:
if paragraph.text.strip(): # 去掉空行
texts.append(paragraph.text.strip())
# 提取表格内容
for table in document.tables:
table_data = []
for row in table.