DeepSeek-V3搭建本地pdf知识库
近期,国内DeepSeek V3大模型表现非常亮眼,加之价格极其亲民,这让不少开发者心动。结合Langchain,我实现了一个本地知识库问答系统,该系统通过API接口调用大模型,而非自行搭建和部署。
这个项目本质上是一款由AI驱动的知识库助手,旨在帮助用户从PDF文档中提取信息并进行自然对话。下图展示了整体架构设计:(用于学习)
系统架构
项目主要由四个核心模块构成:
- 语言模型 (ChatOpenAI):专注于理解用户输入和生成自然语言回复
- 知识库:负责存储和管理文档数据
- 对话管理:用于匹配问答并维护多轮对话的上下文
- 用户接口:通过命令行方式提供交互体验
技术实现
- 文档处理:自动解析PDF并将内容分块存储
- 向量检索:将文本转化为向量以实现高效的相似度搜索
- 对话交互:支持多轮问答,确保对话内容连贯流畅
- 用户体验:配备加载动画和打字机效果,提升反馈体验
项目的运行依赖于DeepSeek V3(官网:https://platform.deepseek.com/)提供的API Key。价格非常友好,仅需几元即可轻松入门。获取到API Key后,只需在指定的文件中填写即可启动应用。
目前该系统仅支持PDF格式文档,未来计划整合更多主流企业文档格式,如Word、Excel、TXT、HTML、PPT等,进一步拓宽使用场景。
代码说明
项目目录
包含了模型,自己下载的话需要魔法,没有魔法会报错
实际使用
运行main.py
会先下载模型,加载pdf为向量,结合deepseek来回答问题
实际使用
ps:
1.python版本3.10.x
2.如果启动失败将embeddings_cache文件夹删除重新下载加载模型
代码下载
关注公众号【程序员小袁】 回复【DeepSeek-V3搭建本地pdf知识库】即可获取完整代码 没有其它套路