【看出海】亚马逊云科技赋能墨奇科技解决知识库构建核心痛点

7a8c666511ae851e1687034a0c5dd099.jpeg

关键字: [出海日城市巡展, Moqi Vector Database, 企业知识库构建, 向量数据库优化, 复杂查询支持, 数据权限管理, 行业场景落地]

本文字数: 1600, 阅读完需: 8 分钟

导读

墨奇科技是一家专注于向量数据库和企业知识库解决方案的公司。在本次演讲中,该公司的代表分享了在企业知识库落地过程中遇到的核心痛点,以及他们的产品如何解决这些问题。他们的向量数据库产品能够高效处理复杂查询,并与企业现有系统无缝集成,从而实现知识库的快速构建和高效检索。演讲还介绍了该公司在论文知识库、工业质检报告等多个行业场景的成功案例,展示了其产品在提高企业知识利用效率、降低成本等方面的优势。

演讲精华

以下是小编为您整理的本次演讲的精华,共1300字,阅读时间大约是6分钟。

墨奇科技是一家专注于数据库产品研发的公司,其主打产品是一款MySQL向量数据库,这是一款全在亚马逊云科技云上运行的SaaS产品。公司成立于2016年,总部设在北京和新加坡,投资方包括纳斯达克、金沙江创投和腾讯,目前已累计融资超过7000万美元。

除了MySQL向量数据库外,墨奇科技还自主研发了两款其他产品:一款名为”末期AI数据库”的向量数据库,面向国内市场,符合信创标准,支持私有化部署,是国内首批通过国家标准认证的向量数据库产品;另一款则是基于自研向量数据库构建的企业知识库解决方案。

墨奇科技的核心技术可总结为三个方面:首先,它是目前唯一一款SQL全兼容且高性能的向量数据库,这一点是公认的事实;其次,采用纯字向量索引,在数据成本和复杂检索成本控制方面具有优势;第三点是,通过大规模项目的落地实践,公司在大模型加大数据场景下积累了丰富经验,包括数据编排、大规模数据入库、复杂文档处理、模型调用和推理优化等多个环节。

目前,墨奇科技的MySQL向量数据库SaaS产品已服务于11个国家的100多家海外付费客户。在国内,公司也已拥有讯飞、联通、中科院自动化研究所、西门子等头部客户,其中最大的单个客户服务级别可达百亿向量,相当于约10亿份文档存储量。

公司核心团队由两位交通大学校友台省和唐林鹏组成,他们的两位导师也是团队成员。其中鄂老师是台省在普林斯顿大学的导师,同时也是中国科学院院士,在公司担任首席科学家一职,负责国内政企场景的落地资源对接;另一位凯凯则是唐林鹏的普林斯顿导师,他曾创办过一家在纳斯达克上市的公司,在硅谷拥有丰富的人脉资源。

演讲围绕RAG(Retrieval Augmented Generation,检索增强生成)在企业场景落地的四大核心痛点展开。第一个痛点是问答精度不高。针对这一点,墨奇科技的向量数据库通过SQL灵活改写查询,结合结构化标签过滤,可以将向量搜索范围大幅缩小,从而提高问答精度。以2.3亿篇论文构建的知识库为例,通过作者、年份、引用次数、行业分类等标签过滤,搜索范围可缩小到万分之一以下,问答精度获得大幅提升,目前国内暂无其他团队能在这一规模数据上做到类似水平。

第二个痛点是数据接入和业务系统集成难度较大。对此,墨奇科技通过长期积累不同行业典型场景的数据接入方案,与企业微信、邮箱系统、SAP等常见企业系统深度集成,从而降低数据接入和业务系统调用的障碍。

第三个痛点是效果调优费时费力。墨奇科技的解决方案是通过量化分段暴露端到端问答结果的问题环节,帮助工程师高效定位并调优。

对于第四个痛点即后期维护成本高,墨奇科技与头部企业网盘公司合作,将知识库建设和检索职能分离:网盘产品承担建库的功能需求如权限管理、数据灾备、文档分类和可视化界面,而墨奇科技的向量数据库专注于高效检索,可大幅降低知识库的后期维护成本。

演讲还介绍了墨奇科技产品在国内外的一些典型应用案例。其中,与中科院自动化研究所的合作项目可谓最为深入,双方合力构建了2.3亿篇自然科学论文知识库,支持复杂问答搜索,目前已有宁德时代、欧莱雅、京东方等头部企业对该解决方案表现出采购意向。这一知识库的数据规模之大,使得搜索难度呈指数级增长,需要充分利用作者、年份、引用次数、行业分类等结构化标签进行过滤,才能将搜索范围缩小到万分之一以下,从而获得较高的问答精度。目前,墨奇科技是国内唯一一家能在这一规模数据上实现良好效果的团队。

另一个代表性案例是与西门子的合作。一开始,西门子的需求是在企业内部文件中构建一个通用知识库机器人,以回答诸如请假政策、产品技术支持、设备借还等各类问题。与ES方案相比,墨奇科技的解决方案在问答精度和成本方面均表现出3倍优势。具体来说,在带过滤搜索的场景下,ES方案的精度无法超过50%,需要依赖多次召回来提升;而墨奇科技的解决方案则能以1/4的成本实现3倍的数据存储和检索并发能力。后续,西门子计划将质检报告数据导入知识库,通过全量分析提高产品良品率,直接带来经济收益,这将是一个更加典型的知识库应用场景。

在海外,墨奇科技还为多家客户提供服务。其中BCapital是一家德国资产管理公司,将金融研报、年报、新闻等数据导入知识库,支持复杂SQL查询,之所以最终选择墨奇科技,是因为公司独有此项技术能力。另一家客户Gonex是一家面向中国企业的国际招聘服务商,将不同国家的招聘政策、法律文件等数据构建知识库机器人,为企业提供咨询和解决方案服务。

一家虚拟女友陪伴聊天应用则呈现出爆发式增长,3个月内用户数暴增至千万,预估年收入高达3000万美元。之所以选择墨奇科技的数据库产品,是因为在多租户数据隔离方面的优势,使其成本比其他竞品低1/3。该应用属于典型的超多租户场景,每个用户创建的虚拟角色数据都需要严格隔离,墨奇科技的数据库只需两行SQL(一个ORDER BY和一个PARTITION BY语句)就可实现权限管理,在效率和安全性上表现出色。

总的来说,墨奇科技致力于通过自研的向量数据库产品和行业经验积累,让大模型与大数据的结合在企业场景中落地更加便捷,避免企业无谓投入,并最小化负面影响。公司的核心理念是:数据是链接大模型和用户的纽带,大模型和大数据结合必将成为未来发展趋势,但如何让这种结合更加高效、更具温度,并真正为企业创造价值,是墨奇科技一直在探索和实践的目标。

总结

在这场演讲中,墨奇科技的代表分享了他们在企业知识库构建中遇到的核心痛点,以及相应的解决方案。他首先介绍了公司背景和产品线,强调了他们自研的向量数据库在 RAG (Retrieval-Augmented Generation) 场景中的优势。接着,他指出了四个主要痛点:问答精度不高、业务系统集成困难、效果调优费时费力以及维护成本高昂。

为解决这些问题,他们采取了以下措施:优化数据库查询能力、丰富业务系统集成入口、提高可观测性以及与企业网盘公司合作。演讲者还分享了几个成功案例,包括北京科学重点研究院的论文知识库、西门子的企业知识库以及一些海外 SaaS 客户。他强调,选择合适的场景对于 RAG 解决方案的成功至关重要,并提供了一些判断标准。

最后,演讲者总结道,数据是连接大模型和用户的纽带,大模型和大数据的结合是未来趋势。他们的目标是让 RAG 解决方案的落地更加便捷,并根据不同行业的需求提供定制化服务,避免企业进行无谓的投入。

  • 12
    点赞
  • 18
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值