- 博客(918)
- 收藏
- 关注
原创 开源:我们复刻了OpenClaw的mem系统,为所有Agent打造透明、可控的记忆
旧的 embedding 就过期了,需要重新计算。:计算每个chunk的SHA-256哈希,重复内容只索引一次——比如两处都提到“PostgreSQL 16”,只调用一次embedding API,能省20%以上的成本(具体测算:500KB文本,去重后每月可省$0.15,大规模使用可省数百美元)。而我们,也正是被这套记忆系统打动,然后做了一件事:把它的核心设计抽离出来,做成了memsearch,让任何开发者都能给自家Agent加上持久、透明、可控的记忆,不用被OpenClaw的单一形态所限制。
2026-02-11 19:39:40
355
原创 chunk大小没有最优解!多尺寸逐级chunk如何提升RAG40%准确率
当然,业内早就有研究者意识到了固定尺寸chunk的问题,也提出过不少优化方案,比如:Anthropic 的上下文检索,会给chunk补充文档级的上下文信息,弥补小尺寸chunk的上下文缺失;与此同时,相比单一索引查询,它的推理耗时会明显变长,对低延迟要求的实时场景不友好。:将语义chunk和多尺寸chunk结合,先做语义chunk保证文本的语义完整性,再对每个语义块做小尺度的细切分,兼顾语义完整和多尺度的查询匹配性,解决了滑动窗口硬切分的语义割裂问题,是目前工程落地的优选方案之一;
2026-02-10 17:59:04
384
原创 拆解:OpenClaw就是agent记忆的最佳范式!其逻辑与RAG有何区别?
需要注意的是,这种裁剪只作用于传递给模型的上下文,磁盘里的完整执行结果不会被修改,后续想找的话,还是能通过记忆检索找到。其中,AGENTS.md存着智能体的指令和记忆使用规则,SOUL.md定义了它的性格和说话语气,USER.md专门记你的相关信息,TOOLS.md则是外部工具的使用指南。,结合语义检索和关键词检索,兼顾了检索的精准度和灵活性(这里原始版本用的是sqlite分别执行关键词与语义检索,然后对两路检索结果进行手动合并,这里我们建议可以直接采用Milvus混合检索,可以用一次检索搞定两个环节)。
2026-02-09 18:12:45
426
原创 Skills 比MCP好在哪儿?如何用Milvus-Skills 搭建知识库
本文介绍了Anthropic推出的Skills工具调用标准,相比传统MCP方法具有更精简的上下文、更高标准化和更强可控性。文章详细讲解了Skills的目录结构(SKILL.md核心文件、scripts执行脚本、templates文档模板和resources参考资料),并以创建Milvus Skills为例,演示了如何通过自然语言描述自动构建RAG系统或Milvus Collection。实战部分包含环境配置、目录创建、核心代码编写和测试验证等完整流程,展示了Skills在简化技术操作、封装最佳实践方面的价值
2026-02-09 14:41:31
1039
原创 自动驾驶+百亿向量,全球GPU龙头如何用Milvus加速模型训练
用4-5亿向量数据完成POC后,我们迅速将Milvus落地生产,而它带来的价值,甚至超出了我们的预期——不仅稳定支撑了百亿向量的写入与查询,实现了降本增效,版本升级与监控变得便捷,数据分发、segment管理、查询路由也都能自动完成,团队研发效率大大提升。最直观的就是数据管理的瓶颈:路测数据转化为embedding数据后,会对应一个FAISS索引文件,日积月累竟达到了数十万之多,这些文件孤立又重叠,跨天跨区域查询时,工程师得手动调取上百个文件,不仅成本高,效率也完全失控。
2026-02-05 18:46:26
371
原创 高效索引之HNSW_SQ:如何同时兼顾RAG的速度、召回率与成本
和传统的按维度独立计算极值的非均匀标量量化(逐维量化)方式不同,SQ4U采用的是全局均匀量化策略:它会为整个向量或向量段计算一个统一的最小值 vmin 和数值范围 vdiff,然后把这个范围平均分成16个区间,所有维度的浮点数值都用这一套参数映射成0-15的4比特整数。节点之间会根据向量相似度建立连接,搜索的时候,算法可以从上层稀疏的图快速定位到下层密集的图中的区域,大大缩小需要遍历的范围,这也是它能实现。搜索参数里的 ef 很关键,它决定了搜索时的遍历广度,数值越大精度越高,但速度越慢,。
2026-02-04 18:09:01
349
原创 企业级RAG教程 | langchain+AWS Bedrock+Zilliz,适合80%企业
本文介绍了基于AWS云平台构建企业级RAG(检索增强生成)系统的实践方案。针对传统大模型在企业应用中的知识时效性差、幻觉率高等问题,提出采用MVC架构设计,整合AWS Bedrock、Nova模型、Titan Embeddings和Zilliz Cloud等组件。文章详细阐述了系统架构设计思路、技术选型依据(包括AWS Lambda、Bedrock多模型支持、Zilliz向量数据库优势等),并提供了环境配置和核心功能实现的代码示例。该方案强调组件解耦、弹性伸缩和快速部署,旨在帮助企业利用现有云资源高效落地R
2026-02-04 09:30:00
552
原创 唯品会、虎牙、YY,是怎么用好向量检索的,看这一篇就够了|活动回顾
目前的分布式自研架构为存算分离设计,基于Raft一致性协议实现数据一致性,分为平台层、接入层、协调层、计算层、存储层五大模块,通过Raft架构实现数据分片与分布式管理,支持弹性伸缩、秒级容灾与故障恢复,可适配直播业务的流量波动。作为专注非结构化数据处理的开源向量数据库,Milvus在开源界向量数据库领域排名第一,核心聚焦向量数据的存储、检索与管理,目前已服务全球超万家企业,合作方涵盖英伟达、eBay、微软、沃尔玛等国际巨头,以及国内各大银行、互联网运营商、车企,成为企业级场景的优选方案。
2026-02-03 18:44:47
333
原创 <span class=“js_title_inner“>Spark做ETL,与Ray/Daft做特征工程的区别在哪里,如何选型?</span>
首先,针对Spark模型重复加载、内存浪费的问题,Ray/Daft采用Actor Pool机制,让模型只加载一次,多个Task复用同一个Actor,彻底避免重复加载带来的资源消耗,大幅节省内存。——把原始数据(图像、文本、音视频)转换成模型能理解的数值信号(Embedding向量、结构化特征),或者提取结构化数据(日志、表格)的结构化特征(数值、类别),供模型训练使用。数据不跨分区、无网络I/O,每行数据独立处理(比如给每张图片生成Embedding,各算各的,互不干扰)。
2026-02-02 18:44:47
492
原创 Spark做ETL,与Ray/Daft做特征工程的区别在哪里,如何选型?
首先,针对Spark模型重复加载、内存浪费的问题,Ray/Daft采用Actor Pool机制,让模型只加载一次,多个Task复用同一个Actor,彻底避免重复加载带来的资源消耗,大幅节省内存。——把原始数据(图像、文本、音视频)转换成模型能理解的数值信号(Embedding向量、结构化特征),或者提取结构化数据(日志、表格)的结构化特征(数值、类别),供模型训练使用。数据不跨分区、无网络I/O,每行数据独立处理(比如给每张图片生成Embedding,各算各的,互不干扰)。
2026-02-02 18:44:47
312
原创 POC避坑指南|VectorDBBench自定义数据集测试实战教程
本文介绍了企业在大模型落地过程中面临的向量数据库选型难题,指出传统测试数据集(如SIFT)与真实业务场景存在维度差异,导致性能评估失真。为解决这一问题,文章推荐使用真实业务数据进行测试,并详细介绍了Zilliz团队开源的VectorDBBench工具。该工具支持多种数据库性能评测,允许用户接入自定义数据集。文章提供了从数据准备到测试的完整指南,包括如何将CSV/NPY格式数据转换为符合要求的Parquet文件,以及如何运行测试脚本。通过使用真实数据测试,企业可以更准确地评估向量数据库的QPS、延迟、召回率等
2026-02-02 11:08:08
926
原创 教程:如何用飞书+Moltbot,打造你的MilvusAI小助手
一台可通外网的服务器(linux)(另外,阿里云在内的云平台已经出了Moltbot专属云端方案,能简化部署,因此本文重点讲自建部署)接下来,本文教你如何在自己的 Mac 或 Linux 上,部署 Moltbot,对接飞书,搭建属于自己的MilvusAI小助手。也就是说,有了它,我们就约等于给自己配备了一个能思考、能回答问题,还能直接动手操作的24小时赛博助理。最好跑在不要的设备,或者虚拟机环境,毕竟给大模型增加工具调用能力后,就不存在绝对安全的部署方案。不过,教程最后,给一个衷心劝告,
2026-01-29 18:21:57
504
原创 RAG优化不抓瞎!Milvus检索可视化,帮你快速定位嵌入、切块、索引哪有问题
而 Project_Golem 的核心,就是把这个看不见的高维向量空间,通过 UMAP 算法将 768/1536 维的高维向量降维至 3 维,再利用 Three.js 完成 3D 空间渲染,让所有文档向量以节点形式呈现在 3D 界面中,语义相似的节点会自然聚集形成簇;在线阶段,当用户发起查询时,先在高维空间计算余弦相似度完成检索,再根据返回的文档索引,在 3D 界面中 点亮对应的节点,检索结果的空间位置自然就能一目了然。同时绘制从查询点到命中节点的半透明连线,摄像机平滑聚焦到激活簇所在区域。
2026-01-28 18:09:38
594
原创 Milvus+印度最大电商平台,如何打造服务两亿月活用户的商品比价系统
举个中文环境的例子,同一台洗衣机,商家A的标题是“全自动10kg变频滚筒”,商家B的标题是“10公斤变频滚筒洗衣机 静音节能”,对应的图片分辨率更是从300x300到2000x2000不等,甚至有商家用好几个角度的实物图的情况下,有的商家只用示意图。也是因此,在服务第三方商家、给自营产品定价时,比价系统的建设,举足轻重。也是因此,比价服务不仅要在平台内找相似款,还要监控全市场动向,提供竞对情报、平台动态定价建议,并通过跨目录匹配,精准识别自家平台上的空白细分品类,助力商家优化商品结构。
2026-01-27 18:06:06
385
原创 Claude通过Cowork实现模型主动记忆,要如何复现?我们还需要RAG吗?
指的是短期、非持久化记忆,仅在会话启动时注入一次,会话结束后销毁,主要用于让模型适配当前场景(如移动端简化回复格式),不影响长期记忆。,是长期、可编辑的核心记忆,用于记录用户稳定属性(,如姓名、职业目标、过往经历、项目成果、学习偏好),每次对话都会强制注入。具体来说,模型会选择性的记住我们每次与它交互的过程,以及产生的结论,这些数据可以被实时写入、快速检索、并且以短期记忆、用户属性、长期记忆等形式被分门别类的保存,然后被主动复用在下一次的会话中。整个过程的核心是检索,而检索是只读的,不会往数据库里写东西。
2026-01-26 18:06:13
661
原创 深度解读:从Two Sum到 Kafka 再到Milvus与iceberg,数据库寻址中,计算永远优于查找
高延迟的访问动作,哪怕多一次,都是致命的性能损耗。查询时,只需读取对应 Segment 下拆分后的指定 Parquet 文件,结合字段拆分存储+Parquet 的列裁剪特性,只读取业务需要的字段,无需读取全量数据,也无需加载无关字段的文件。写入时花少量成本收集文件的min/max、分区等统计信息,读取时就能用这些信息做前置判断,精准跳过不可能命中的文件,这是计算的极致体现。,它把所有文件的元数据(目录树、文件→块的映射、块→数据节点的映射)全部加载在内存中,而且这些元数据的核心存储结构,就是我们上文讲的。
2026-01-20 18:13:32
375
原创 熠智AI+Milvus:从Embedding 到数据处理、问题重写,电商AI客服架构怎么搭?
比起单纯使用RAGflow的技术框架,我们在Milvus基础上设计了更加灵活集中功能组件的方案,让商品在多种业务场景下检索的召回率大大提升,在商品检索的召回率提升至95%。如前面困境所说,用户的 Query 实际是多种多样的,有简单的 Query,也有指代不明的 Query。Milvus对检索精度极高的掌控力以及原生支持的混合检索的能力,以及极高的性能扩展性和社群活力,挖掘出了我们产品更大的潜力。,借助Milvus及Agent的能力实现自定义表格的检索功能,既保证了查询的精确性,也保证了语义检索的准确性。
2026-01-19 18:08:32
385
原创 官宣 | Milvus 2.6云上GA:三层存储降本85% 、速度快ES 4-7 倍,多数据类型支持
在多个向量代表一个实体的场景中(如电商场景,一个商品可能包含多个角度的图片和描述),Struct 允许将不同类型的数据(如标量、向量、字符串等)组织成一个结构化的对象。从场景角度出发,该方案非常适配冷热数据二八分(热数据占比不到20%,但贡献80%以上访问的)的长尾场景,比如电商产品搜索、企业文档库、新闻媒体库等冷热数据分明的场景。这就导致一个尴尬的结果:即便大部分资源处于闲置状态,:社交平台的历史内容向量库中,90% 的查询集中在最近 7 天产生的内容上,而归档内容(占总量的 95%)几乎不会被访问。
2026-01-15 18:06:26
844
原创 官宣,Milvus开源语义高亮模型:告别饱和检索,帮RAG、agent剪枝80%上下文
Open Provence好的一点是,它的数据来自公开的问答数据集,然后使用了一个小的LLM,对句子相关度进行标注,并生成 silver label(银标签)。多语言方面,中英文都是重点优化语言。目前,市面上也已经出现了一些能够初步解决这些问题的模型,但它们要么只支持英文,要么上下文窗口太小(512 token),要么协议不友好(不允许商业使用)。目前,Semantic Highlight模型已经开源,MIT协议,可以放心用在商业项目中,也欢迎大家基于这个模型的二次开发和改进,让开源的力量薪火相传。
2026-01-14 18:00:33
754
原创 索引选不对,成本贵十倍!ScaNN就是电商推荐的最优解
而ScaNN对这个过程进行了修改,首先它提出了loss的概念。loss和上面的量化误差略有不同,这个loss指的是两个向量的实际距离和使用量化方法计算的近似距离之间的误差,ScaNN主要针对的是IP距离,IP距离的误差和查询向量的分布可以用公式描述。首先这里假设x是q1的近邻的话,那么x和q1的方向是接近的,所以x的平行分量可以近似认为和q1也是平行的,那么这个平行分量会让误差增大。下图是一个二维空间下的例子,说明平行分量带来的误差是更大的,会导致最后近邻结果的错误,所以应该施以更严厉的惩罚项。
2026-01-13 18:23:50
678
原创 索引选不对,成本贵十倍!ScaNN可否是电商推荐的最优解
而ScaNN对这个过程进行了修改,首先它提出了loss的概念。loss和上面的量化误差略有不同,这个loss指的是两个向量的实际距离和使用量化方法计算的近似距离之间的误差,ScaNN主要针对的是IP距离,IP距离的误差和查询向量的分布可以用公式描述。首先这里假设x是q1的近邻的话,那么x和q1的方向是接近的,所以x的平行分量可以近似认为和q1也是平行的,那么这个平行分量会让误差增大。下图是一个二维空间下的例子,说明平行分量带来的误差是更大的,会导致最后近邻结果的错误,所以应该施以更严厉的惩罚项。
2026-01-13 18:23:50
296
原创 都有混合检索与智能路由了,谁还在给RAG赛博哭坟?
需要强调的是,若仅评估最终答案质量,会导致问题定位失效。无论是依赖大模型全量加载上下文,还是沿用传统RAG模式,最终都难以实现输出质量的稳定提升,核心症结在于两者均存在无法规避的底层检索质量问题,且这些问题在企业规模化落地场景中会被进一步放大。二是检索失效,面对复杂问题时,原始查询表达往往不够精确,容易导致检索效果下滑,同时同义词、多语言表达的匹配失败,也会直接造成召回率不足。,全量加载token不仅浪费算力,大模型本身的注意力也是有限的,过长的上下文,只会导致上下文输出时模糊重点,反而导致质量下滑。
2026-01-08 18:04:55
285
原创 GUI都流行四十年了!数据库操作怎么还和DOS一样难搞?
Milvus 节点的任务管理页面,包含五种任务类型:QueryCoord 任务、压缩(Compaction)任务、索引构建任务、Import 任务和 Sync 任务。除了版本号外,系统还详细记录了代码的Git提交版本号、Go语言运行环境信息,以及系统的构建时间和部署创建时间,这些时间戳帮助管理员追溯系统的部署历史。Attu可以解决大部分的日常管理场景,它能让你从写脚本操作解放出来,把时间花在更有价值的事情上——比如优化RAG的召回策略,设计agent架构。甚至只是切换不同环境的数据库,都要手动改配置。
2026-01-07 18:33:09
312
原创 转 | 当 Vector Database 还不是主流时,这家公司(Zilliz)看见了未来
甚至今年,他脑子里也不断冒出新的想法,如果不做向量数据库,他可能会去做一个 agent 的 sandbox,让它们在更安全、更高效的环境中运行。从历史角度看,向量数据库的发展路径也印证了这一判断。与其说这是一次追逐风口的决定,不如说是一次基于数据库工程直觉的判断:如果AI会落地千行百业,而向量搜索会成为 AI 系统的核心能力,那么它迟早需要一套真正的基础设施来承载,而不仅仅是零散的算法调用。最后,他建议开发者保持持续评估的习惯,嵌入模型、重排序模型和搜索算法的演进速度极快,半年不更新,往往就意味着落后。
2026-01-05 18:10:31
1035
原创 ChatGPT VS Claude ,Agent记忆用对话压缩还是RAG按需检索
指的是短期、非持久化记忆,仅在会话启动时注入一次,会话结束后销毁,主要用于让模型适配当前场景(如移动端简化回复格式),不影响长期记忆。,则是长期、可编辑的核心记忆,用于记录用户稳定属性(,如姓名、职业目标、过往经历、项目成果、学习偏好),每次对话都会强制注入。有时是纯语义检索(之前讨论的性能优化方案),有时是纯时间检索(上周的所有对话),有时是复杂组合(三个月内关于 Python 且提到 FastAPI 的讨论)。必须支持存储计算分离,热数据在内存、冷数据在对象存储,按需加载。(不包含助手回复);
2025-12-24 17:57:28
1065
原创 短语检索不等于BM25+向量检索| Milvus Phrase Match实战
它能让你的系统从只能简单理解语义,升级为 “必须包含某短语 + 带语义理解 + 可控 + 可解释”的可落地产品。要匹配同样结构的短语,中文通常需要更大的 slop,数值也更“稀疏”(例如 1、3、5、7…❌ BM25没有词序意识:只能找“connection”, “peer”,词序全乱。——slop 都是在控制“短语中各个词之间允许多远的距离、是否允许插词/倒序”。例如英文用 2,中文可能要 5 才能覆盖到同一类倒序+插词情况)。2. 你用了“英文习惯”的 slop 上限,对中文来说还远远不够。
2025-12-16 18:30:03
434
原创 如何优化英伟达CAGRA,实现GPU建图+CPU查询,成本效率兼顾| Milvus Week
其中,NN-Descent(Nearest Neighbor Descent)的核心是:如果节点u是节点v的近邻,且节点w是节点u的近邻,那么w有极高概率也是v的近邻,通过这种传递性可高效挖掘节点间的近邻关系。在每轮迭代中,为每个节点收集其当前邻居及邻居的邻居,形成候选邻居池,计算候选节点与目标节点的相似度。这种剪枝机制的优势在于,每条边的冗余判断仅依赖于其两端节点与共同邻居的距离计算,无跨边的数据依赖关系,可通过GPU批量并行执行,在不损失检索精度的前提下,将。88.9 倍性能飙升!
2025-12-08 18:18:00
892
原创 88.9 倍性能飙升!JSON Shredding 让 JSON 查询告别全表扫描| Milvus Week
如果你的查询条件没有被单独成列,那基本表明这些要查询的键值对是稀疏的,系统直接在Shared 列中查找,由于已经有基于Key 的倒排,也能很快定位这些查询Key 哪些行中,过滤大部分没有命中的行。Json 中的任意一个Key 都会被分析处理,对于查询具有较强的通用性,可以覆盖用户的所有查询,不需要用户自己创建key,也不需要提前构建索引等。对于稀疏的一些键值对,系统会将其汇总全部放在一列共享列中,并对其做一些优化,针对其稀疏性,建立key 的倒排索引,实现对稀疏值的快速过滤。:将所有可能的字段提前定义好。
2025-12-01 18:10:28
822
原创 写在 Milvus4 万 Star 之际:Zilliz这七年如何走来,又要去往何处?
2024年,Milvus入选Forrester向量数据库"领导者象限",Star突破4万星的时刻,我们更加确信:AI基础设施没有弯道超车,Zilliz八年磨一剑的坚守,正是Milvus持续领跑的核心密码。从金融、制造、医疗,到政务、教育、运营管理,任何场景中非结构化数据的理解和利用,都能借助Zilliz Cloud的能力,立刻挖掘释放。2017年Zilliz成立时,那时候,行业还没有向量数据库的概念,我们率先提出了那个关键问题:向量逐渐成为AI时代非结构化数据的通用语义,那么我们究竟要如何高效的管理它?
2025-11-28 18:07:02
619
原创 RAG不会过时,但你需要这10个上下文处理技巧|Context Engineering系列一
目前,主流的架构范式是使用专门的多模态编码器来处理特定类型的数据,例如使用CLIP(Contrastive Language-Image Pre-training)模型来处理视觉信息,或使用CLAP(Contrastive Language-Audio Pre-training)模型来处理音频信息。例如,N-CRITICS框架采用基于集成(ensemble-based)的评估方法,让多个不同的模型或同一个模型的不同实例对初始输出进行评估,并汇总它们的反馈来指导精炼过程,从而获得更全面、更独立的评价。
2025-11-26 18:13:34
365
原创 RAG效果要提升,先搞定高质量Context Pruning
这样训练出来的模型,既能判断文档相关性,又能精准地做句子剪枝:推理时,Provence会给每个词打分,然后按句子聚合:如果一个句子里标记为1(相关)的词比标记为0(无关)的词多,就保留这个句子,否则就删掉。(Precision 62.35%,Recall 36.98%),在三个模型中相对较弱,显著低于Provence和XProvence,说明在out-of-domain场景下,模型输出的分数校准和泛化能力还有提升空间。更重要的是,这样生成的问题不会出现在任何模型的训练数据中,能够真实反映模型的泛化能力。
2025-11-24 18:18:50
357
原创 月活11亿的Reddit ,怎么选向量数据库:Pgvector、Redis、Milvus、Qdrant
最后,两款方案其实都满足了我们大部分需求,但考虑到Reddit 是一个依然在高速增长的平台,且未来的数据体量与运维难度还将节节攀升,选择Milvus 的更强扩展性,能让整体运行更放心,也更适配Reddit 公司的情况。最后,每个方案的总分会用方案在某项需求的得分乘以这项需求的权重,再加起来(比如 Qdrant 在 “重排序 / 分数合并” 这一项得 3 分,权重是 2,那这项就是 6 分,所有项都这么算再求和)。,一同进步,开源让客户自身也能深度参与、贡献代码的方案,这样一旦遇到问题,也自主快速修复。
2025-11-20 17:59:07
1270
原创 Milvus 落地顶级汽车资讯平台:如何支撑易车上亿用户的搜车需求?
(仅做变更数据同步,不做全量数据同步,不会影响业务),通过 Flink CDC 抓取 MySQL、SQL Server、MongoDB 等业务数据源变动,经 Kafka 传输、Flink Job 处理拼接、embedding 后,秒级推送至 Milvus 集群,延迟从 1 天降至秒级。对待召回数据生成相似问,提升召回率。,将文档、网页、图片等多源数据的清洗、加工、向量化封装成自动化任务,不仅保障了数据逻辑的一致性,还能充分利用大数据集群资源,提升数据处理效率,为 Milvus 提供了高质量的向量数据输入。
2025-11-18 17:57:26
587
原创 沃尔沃RAG实战:企业级知识库,早就该放弃小分块策略
此外,对于Milvus的选型,沃尔沃也没选择比较新的 PyMilvus v2 SDK 及其内置的embedding集成功能,而是选择了 SDK v1 中基于collection的旧版本,从而保证团队能够设计详细的元数据结构,并明确定义每种文档的存储、索引和检索方式。此外,针对格式繁多的非结构化数据,Milvus 支持的字段类型多达 64 种,这让沃尔沃不仅能存储嵌入向量,还能存储丰富的元数据 —— 从文档类型、来源到部门级分类等关键信息,覆盖全面。理由是,他们觉得较短的片段能带来更高的精度。
2025-10-29 18:16:00
1110
原创 先分块再向量化已经过时!先embedding再chunking才是王道
仅需调整 3 个核心超参数(最大分块大小、一二句之间的最低语义相似度需求、新句子与块内句子最大相似度的最低门槛),且超参数逻辑与分块大小自适应 —— 分块规模越大,新句子纳入的阈值越高。:计算当前分块 C 内所有句子向量间的最小 pairwise 余弦相似度,识别分块内语义最不相似的句子对,衡量分块内句子的关联紧密程度,进而判断新句子是否与分块内句子足够相似。核心决策逻辑为:若分块 C 内的最小相似度小于新句子与分块 C 的最大相似度,则新句子加入分块 C,否则开启新分块。(衡量新句子与分块的适配度);
2025-10-28 17:57:42
876
原创 DeepSeek-OCR解读:视觉如何成为长上下文压缩的新思路
更重要的是,在计算效率层面,会将在线处理复杂度大幅降低。而 DeepSeek-OCR 通过 文本→图像→视觉 token的转换,直接将计算基础从文本 token 转为视觉 token,相当于用更低复杂度的载体重构问题。例如处理含折线图的财报时,视觉 token 可保留数据趋势,解码器能直接输出可编辑的 HTML 表格,避免传统方案仅能提取图下文字说明的局限。简单来说,用视觉模态作为长上下文的压缩载体,DeepSeek-OCR在保证精度的同时,可以实现模型算力与效率的突破。
2025-10-22 18:54:15
1286
原创 大模型落地,已经走到了用上下文工程续命时刻
当你的AI应用需要从海量上下文中快速找到最相关的信息时,这种性能表现直接决定了用户体验的好坏。DeepMind在Gemini 2.5的技术报告中详细描述了这种现象:在Pokemon游戏实验中,AI智能体偶尔会产生关于游戏状态的错误判断,并将这些错误信息写入上下文。,甚至在完全不需要工具的场景中也会错误地尝试调用工具。从1KB的文本消息到100MB的视频片段,从简单的数值记录到复杂的嵌入向量。而且,基于“Lost in the middle”现象,大模型会给上下文的开头和结尾更高的权重,忽略中间部分内容。
2025-10-13 17:58:40
1130
原创 Filevine四亿刀融资跻身法律AI独角兽,背后的infra怎么搭
在Filevine看来,无论法律类AI还是更多行业的AI产品,其本质都不是取代传统人类,而是通过向量数据库等产品,来解决人类工作中的脏活、累活,以及多数无意义的案头工作。:一个案件通常包括数千份文件,包括法庭文件、诉状和命令、证词记录和专家证人陈述、历史案件档案和先例文件,此外,复杂的医疗记录,每个病人通常有数百页。在传统的法律工作流程中,律师60–80% 的时间,都被花在寻找、过滤、对齐法律条文以及各种信息上,每天消耗的时间至少6小时起步。,日均文件上传量超过 2,000 万页,总处理文档超十亿份。
2025-09-24 18:07:58
760
原创 百图生科:如何搭建针对50亿蛋白质序列、上亿文献的AI检索系统
生物数据形态多样,涵盖蛋白质结构、DNA 序列、细胞成像、科研文本等,生命科学的突破往往就藏在跨模态数据的关联中 ——比如生物体的DNA会影响其所能产生的蛋白质大类,而蛋白质结构与细胞病变之间也往往有着对应关系。基于稳定高效的基础设施,百图生科的目标是把技术转化为真正解决行业问题的可落地方案。具体路径上,通过大模型海量的生成、预测与优化能力,AI几乎可以生成无限药物组合可能,去针对过往未被考虑的疾病治疗靶点,生成具有优化特性的新药物分子或生物制剂,辅助和优化传统制药中的高通量筛选和生成设计环节。
2025-09-23 18:07:55
1120
原创 索引选不对,成本贵十倍!HNSW与IVF如何做选型
如果采用了 PQ/SQ8 压缩,如果采用了 PQ/SQ8 压缩,系统会用查表法(lookup table method) 来加速距离计算:在查询开始时,预先计算查询向量与码本的距离,之后只需“查表+加和”即可快速得到近似距离。读者(查询向量)进门不用瞎转,直接锁定最相关的 2-3 个区域,在小范围里找书,效率自然翻倍。它的核心思路是“先粗分,再细排”:通过 k-means 聚类将海量高维向量划分到不同簇中,查询时只需进入最相关的少量候选簇,既避免了全表暴力扫描,又能兼顾速度与精度。
2025-09-18 18:11:11
1567
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅