7月16日,首届线下“可信数据库发展大会”在北京举办,会上中国信息通信研究院(中国信通院)公布了 2024 上半年“可信数据库”产品能力评测结果。火山引擎云搜索服务在基本功能、运维管理、安全性、兼容性、扩展性、高可用、工具生态方面满足测试要求,通过信通院向量数据库能力测评。此前,该产品也已经通过了中国信通院“可信数据库-搜索型数据库”资质认证。
“可信数据库”产品能力评测通过严格地测试和检查筛选优秀的产品和优质的服务商,圈定了国内数据库产品和服务商第一梯队,对数据库规划、研发、交付和运维运营起到了指导作用,推动了国内数据库产业持续增强。
云搜索服务
云搜索服务(Cloud Search)是火山引擎提供的全托管一站式信息检索和分析平台,兼容 OpenSearch、Elasticsearch、OpenSearch DashBoards、Kibana 等软件及常用开源插件,支持全文搜索、向量搜索、混合搜索、时空检索等。提供结构化、非结构化文本的多条件检索、统计、报表,可以实现一键部署、弹性扩缩、简化运维,快速构建日志分析、信息检索分析等业务能力。
典型场景
火山引擎云搜索服务支持基于 Serverless 和容器化能力部署,提供全方位的向量搜索解决方案,常见的业务使用场景有以下六大类,目前在企业的业务场景中均有所运用:
-
多模态搜索:包括图片搜索、语义搜索、音视频相似性检索等。
-
智能推荐: 视频推荐、广告投放推荐、关系推荐、商品推荐等。
-
智能问答:基于 Transformer 的 FAQ、LLM 的领域知识问答、LangChain 集合的生成式 QA。
-
数据消重:视频、音频、图片的审核消重、各类素材版权检测。
-
安全风控:欺诈检测、扫黑检测、危险评估、异常检测。
-
其他应用:数据挖掘、数据分析、搜索重排序、文本搜图。
实践应用
——字节跳动超大规模向量检索库应用最佳实践
在字节跳动内部,抖音/头条/飞书等业务的搜索推荐以及模型训练都深度使用了火山引擎云搜索服务提供的向量搜索库能力。云搜索的向量检索支持 Scale Out 扩容,集群节点可扩容至上百台规模,目前已有 200 亿级别的单一向量检索库落地案例,产品同时支持 HNSW、DiskANN、IVF 等算法,并支持多达 16000 维的向量。
RAG 生成式智能问答系统方案
已落地的火山引擎云搜索服务+豆包大模型 RAG 方案。先检索,召回企业专用语料上下文,再通过大型语言模型(LLM)生成精准对话。确保方案的商业化应用无缝落地,在保障语义生成精准的同时 实现成本效益最大化。
方案优势:
-
同时支持全文检索和向量检索,双路召回+融合排序,提供定制化排序算法和权重定义;
-
减少纯向量数据库对语料中专业术语和简称的搜索失能;
-
对于半结构化数据,提供联合条件过滤能力,可进行更精细的召回管理;
-
支持白屏搜索和问答效果调优;
-
ES 用户无学习门槛。