DeepSeek接入个人知识库,最新安装包发布,确实可以封神了!

你好,我是郭震

今天跟大家汇报下DeepSeekMine软件最新进展,同时发布最新版V6.1软件安装包。

对于第一次看到 DeepSeekMine 的朋友,简单介绍一下,这是我们一直在开发的个人知识库工具,它集成了外部知识检索与大模型生成能力。

如下图所示,左侧是软件加载的个人本地知识文件列表,右侧用户输入提问,若提问命中了文件列表的某些文件的某些文本片段,则自动整合这些片段,这些技术一般简称称为RAG(检索增强),然后注入到大模型回答用户问题:

再强的大模型如果没有机会学习个人本地文件知识,也无法更好回答此部分问题,但是本地知识库软件能有机会吸收个人文件知识,因此回答问题质量会更好。

1 软件特点

DeepSeekMine软件主要三个特点:纯离线,速度快,够精准。

关闭网线,DeepSeekMine软件一样运行,如下图所示精准检索Excel文件的数据:

目前很多知识库类软件要求必须在线,比如比较优秀的知识库类软件腾讯的ima,纳米AI,必须要把文档上传到他们的服务器,才可以执行检索或生成任务,如下图所示,断网后纳米知识库无法回答问题:

云端服务器资源充沛,实现检索快、精度高,更容易一些。做纯离线的知识库软件,因为本地环境计算资源有限,还想速度快、精度高,挑战就会更大一些。

在过去两个月多,我们在思考如何设计既快又准的本地RAG方案和算法,到目前V6.1优化后,无论上传文件,检索文件,回复提问,都做到秒级回复。

为了证明这点,我分别上传三个GIF图来证明,因为公众号上传GIF帧数有限制,只能上传前面几帧。1)上传文件演示,如下GIF图无任何加速,全部保持原始速度:

2)V6.1新增对文件夹的托管支持,如下GIF图演示了文件夹内10个文件的批量上传速度:

3)回答速度如下GIF图所示,测试电脑是mac pro m1,GIF录制全部保持原始速度,此时我的电脑运行内存已经所剩很少,否则比下面速度还会快:

2 软件升级

V6到V6.1我们主要做了下面这些升级,这些需求大部分都来自关注我的读者,根据所提需求人数,切合度等优先级逐步升级。

1)无法启动问题。V6部分用户出现无法启动,或第一次启动慢的问题,这是这次升级最高优先级的,重点优化了这个问题,根据内测反馈,V6.1将会基本彻底解决这些问题。群内两位用户反馈结果,如下图所示:

2)新增支持文件夹托管上传。如上面GIF演示所示,同时对文件夹托管页面做了优化,显示文件上传状态(成功,失败,失败的话原因是什么更方便大家跟我们反馈问题):

3)文件图标优化。优化为大家最熟知,并且软件内部全部做了统一,如下图所示,方便大家辨别:

4)RAG精度问题。提升精度作为DeepSeekMine软件一直优化的事项,这次升级重点优化了对Excel文件的检索精度,如下提问光明企业薪资表员工收入最高的是谁?工资是多少?如下所示左侧显示命中的文本片段,右侧为大模型的回答:

为了验证精确度,我们对表格的数据做排序检索,和上面大模型的回答比对:

得出结论,DeepSeekMine软件准确检索到了本地个人知识库文件,精准的回答了用户提问。

5)RAG多轮回复精度。相比于提升单轮回复精度,多轮回复精度提升更有挑战,用户连续提问下,如何利用检索增强避免出现语义偏移,也是一个比较难的问题,如下所示DeepSeekMine最新版本增强了多轮回复精度,即便提问不够准确,也能利用历史会话自动增强:

6)Chat会话增加停止会话功能,支持随时停止回复,如下所示:

7)右侧命中文本片段面板,做了格式优化,优化后如下图所示:

8)笔记面板支持隐藏,如下图所示未隐藏视图,点击箭头所示的隐藏图标:

隐藏后如下图所示:

以上就是本次优化的主要事项,其他细节由于篇幅问题,不再展示,大家感兴趣的想获取的,可以在下面我的公众号回复:知识库

3 下一步计划

1)继续优化RAG精度。调研目前最先进的RAG方法,找到最适合本地部署,既快又更准的算法方案:

2)RAG回答精度与大模型能力也息息相关,如下图所示,1.5b回答会出现幻觉:

7B就会好很多,回答更加精准:

对于更加复杂的任务,更有必要使用云端更强大模型,如下使用云端满血DeepSeek-r1的回答质量;

基于此,后面新版本会考虑接入更多强大的大模型API,供大家方便实用。

3)软件详细使用文档,常见问题及解决措施。团队小伙伴已经准备好,等下一版本我们彻底集成到软件里后,尽快给大家发出来。

4)更多界面显示优化,大家留言区反馈问题收集和迭代事项等。

总结一下

DeepSeekMine 是一款集成 RAG 与大模型的个人本地知识库工具,支持纯离线运行。

基于测试的机器mac m1, win10,最新版 V6.1 实现上传、检索、回答全流程秒级响应。关于机器配置,最好内存8G以上,四核及以上CPU,无GPU也能运行。

新增文件夹托管、图标统一、多轮问答增强等关键功能。重点优化 Excel 检索精度与启动稳定性,解决多项用户反馈问题。后续将持续优化 RAG 精度,并探索更强模型接入与界面升级。

以上全文2698字,20张图。制作软件不易,如果觉得这个软件对你有用,可否点个关注。给我个三连击:点赞、转发和在看。若可以再给我加个⭐️,谢谢你看我的文章,我们下篇再见。

动物目标检测数据集 一、基础信息 数据集名称:动物目标检测数据集 图片数量: - 训练集:9,134张图片 - 验证集:1,529张图片 - 测试集:1,519张图片 总计:12,182张图片 分类类别: Bear(熊)、Cat(猫)、Cattle(牛)、Chicken(鸡)、Deer(鹿)、Dog(狗)、Elephant(大象)、Horse(马)、Monkey(猴子)、Sheep(绵羊) 标注格式: YOLO格式,包含归一化坐标的边界框和数字编码类别标签,支持目标检测模型开发。 数据特性: 涵盖俯拍视角、地面视角等多角度动物影像,适用于复杂环境下的动物识别需求。 二、适用场景 农业智能监测: 支持畜牧管理系统开发,自动识别牲畜种类并统计数量,提升养殖场管理效率。 野生动物保护: 应用于自然保护区监控系统,实时检测特定动物物种,辅助生态研究和盗猎预警。 智能养殖设备: 为自动饲喂系统、健康监测设备等提供视觉识别能力,实现精准个体识别。 教育研究工具: 适用于动物行为学研究和计算机视觉教学,提供标准化的多物种检测数据集。 遥感图像分析: 支持航拍图像中的动物种群分布分析,适用于生态调查和栖息地研究。 三、数据集优势 多物种覆盖: 包含10类常见经济动物和野生动物,覆盖陆生哺乳动物与家禽类别,满足跨场景需求。 高密度标注: 支持单图多目标检测,部分样本包含重叠目标标注,模拟真实场景下的复杂检测需求。 数据平衡性: 经分层抽样保证各类别均衡分布,避免模型训练时的类别偏差问题。 工业级适用性: 标注数据兼容YOLO系列模型框架,支持快速迁移学习和生产环境部署。 场景多样性: 包含白天/夜间、近距离/远距离、单体/群体等多种拍摄条件,增强模型鲁棒性。
数据集介绍:农场与野生动物目标检测数据集 一、基础信息 数据集名称:农场与野生动物目标检测数据集 图片规模: - 训练集:13,154张图片 - 验证集:559张图片 - 测试集:92张图片 分类类别: - Cow(牛):农场核心牲畜,包含多种姿态和场景 - Deer(鹿):涵盖野外环境中的鹿类目标 - Sheep(羊):包含不同品种的绵羊和山羊 - Waterdeer(獐):稀有野生动物目标检测样本 标注格式: YOLO格式标准标注,含精确边界框坐标和类别标签 数据特征: 包含航拍、地面拍摄等多视角数据,适用于复杂环境下的目标检测任务 二、适用场景 智慧农业系统开发: 支持畜牧数量统计、牲畜行为监测等农业自动化管理应用 野生动物保护监测: 适用于自然保护区生物多样性监测系统的开发与优化 生态研究数据库构建: 为动物分布研究提供标准化视觉数据支撑 智能畜牧管理: 赋能养殖场自动化监控系统,实现牲畜健康状态追踪 多目标检测算法验证: 提供跨物种检测基准,支持算法鲁棒性测试 三、数据集优势 多场景覆盖能力: 整合农场环境与自然场景数据,包含光照变化、遮挡等真实场景 精确标注体系: - 经专业团队双重校验的YOLO格式标注 - 边界框精准匹配动物形态特征 数据多样性突出: - 包含静态、动态多种动物状态 - 涵盖个体与群体检测场景 任务适配性强: - 可直接应用于YOLO系列模型训练 - 支持从目标检测扩展到行为分析等衍生任务 生态研究价值: 特别包含獐等稀有物种样本,助力野生动物保护AI应用开发
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值