阿里云 OpenSearch 重磅推出 LLM 问答式搜索产品,助力企业高效构建对话式搜索服务

1. 企业专属问答搜索

1.1. 世界知识 vs 企业专属知识

ChatGPT、通义千问正在引领搜索技术变革,其表现出的“什么都懂,什么都能聊”关键是依赖于底座大语言模型(Large Language Model, LLM)中压缩的世界知识。但无论是多强大的LLM,能压缩的知识量仍然是有限的。

下图中的问题是关于阿里巴巴内部的技术产品,属于企业专属知识,就算是强大的ChatGPT模型给出的答案也是完全错误不相关的。

针对这个问题,OpenAI提出了chatgpt-retrieval-pluginWebGPT,开源社区提出了DocsGPTChatPDF基于langchain的检索增强chatbot等等一系列解决方案,足以证明业界对如何在个人/企业专属数据上结合LLM需求强烈。

1.2. LLM的检索增强式能力

OpenSearch团队结合多年搜索实践经验,提出LLM检索增强式能力,为用户提供一站式SaaS化行业问答搜索解决方案。

对于用户输入Query,如果结合业务数据中检索到的结果一起输入给LLM,则可以得到更精准的回答。

如下所示:

Query:阿里的TPP平台是什么

在企业内部文档中检索到的结果如下:

TPP是阿里个性化算法开发平台,依托阿里AI·OS引擎(特征、召回、打分等引擎)为众多的个性化业务(搜索、推荐、广告等)提供Serverless化的在线服务能力。用户在TPP平台上编写业务代码,做AB实验并对外提供服务,而无需关心机器资源、应用部署结构,不需编写服务框架。在TPP产品页面可管理业务代码的全生命周期,包括编译,调试、发布上线、监控报警、问题排查。结合AI·OS引擎套件接口和高性能图化开发框架,用户只需要实现自己的业务逻辑,即可拥有稳定、高性能的个性化在线服务。

将检索结果作为prompt输入模型后,模型给出了更加精准简练的回答:

对于LLM的检索增强式能力,有以下两点需要特别注意权衡:

  1. 有效性:生成的结果是基于检索结果中与Query最相关的部分总结。
  2. 有害性:生成的结果不应该是脱离检索结果随意编造,错误的信息反而会误导用户。

OpenSearch智能问答版在这一场景下对大模型预先进行了finetune,并针对性的调整了模型参数和prompt格式,尽可能的保障问答结果的精准可靠。

2. 技术实现

2.1. 系统架构

OpenSearch智能问答版系统架构主要包含业务数据处理、大模型预训练、问答搜索在线服务三个部分。

2.1.1. 业务数据处理

相比传统的搜索引擎,OpenSearch智能问答版离线数据处理流程最大的变化点在于对业务数据的处理:

    • 0
      点赞
    • 0
      收藏
      觉得还不错? 一键收藏
    • 0
      评论

    “相关推荐”对你有帮助么?

    • 非常没帮助
    • 没帮助
    • 一般
    • 有帮助
    • 非常有帮助
    提交
    评论
    添加红包

    请填写红包祝福语或标题

    红包个数最小为10个

    红包金额最低5元

    当前余额3.43前往充值 >
    需支付:10.00
    成就一亿技术人!
    领取后你会自动成为博主和红包主的粉丝 规则
    hope_wisdom
    发出的红包
    实付
    使用余额支付
    点击重新获取
    扫码支付
    钱包余额 0

    抵扣说明:

    1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
    2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

    余额充值