京东电商搜索：大模型生成式检索优化实践

京东零售技术

于 2024-12-12 13:57:06 发布

阅读量4k

点赞数 22

文章标签：大模型搜推

本文链接：https://blog.csdn.net/zheli1969917/article/details/144425103

版权

01背景/现状介绍

1. 业务场景概述与搜索链路挑战

在搜索链路的召回环节，面对庞大的商品库规模，从千万至数十亿的商品中快速提取潜在相关商品，需在时间与资源约束下，确保效率与性能兼备。

基于文本信息的双塔架构（表示+索引）已广泛应用于商品检索中。该方法通过用户点击数据，将查询词和商品文本映射到相同的语义空间，利用内积或余弦相似度实现高效检索。然而，为了适应快速检索需求，双塔架构减少了塔间交互，导致模型在精确语义匹配和长尾数据场景中表现不佳。尽管后期尝试引入交互或伪交互改进，仍受限于基本双塔架构，未从根本上革新交互方式，加之索引维护成本与精度折损的挑战，促使业界寻求破局之策。

在此背景下，生成式检索异军突起，颠覆传统检索逻辑，借力语言模型实现查询到商品信息的直接端到端映射，即时生成高度相关的商品列表，开创了深度、连贯的交互新模式，尤其在复杂语义匹配领域展现出巨大潜力。

生成式检索凭借四方面核心优势提升了搜索体验：

链路损耗规避：摒弃传统多步骤流程中的信息衰减，实现 Query 至结果展示的一体化。
索引管理优化：将原有索引转换为轻量级索引，简化数据库管理，显著降低存储与检索开销。
模型表现升级：持续迭代优化每一步推荐过程，集成 GPT 等先进语言模型，深化特征抽取，增强理解和生成能力，特别在多样化和长尾商品描述中展现卓越效能。
知识融合增强：挖掘大型语言模型蕴含的世界知识，促进推荐智能化与个性化，助力冷启动破解及长尾产品推广。

不过，挑战犹存，商品表示困难、文本长度过长、噪音大、词序无关以及训练难度高仍是亟需攻克的技术壁垒。

针对生成式检索的优化，我们进行了两方面的探索，一个是 Lexical based，另一个是 SemanticID based。Lexical 聚焦于运用自然语言的词汇单元作为文本表征；而 Semantic ID，则转向数值基底，借助数字序列来描绘文本特征，具体实践上，先通过外部编码器转换文本，继之以层次聚类技术生成 ID 标识。

这两种策略各具特色：

Lexical 直接受益于大语言模型的强大功能，无需附加信息导入即可充分发挥模型效能，展现出较高的透明度与灵活性；
Semantic ID 则擅长抽象化处理，通过数字编码精炼文本内涵，适用于深度挖掘文本背后的语义关联。

接下来将分别展开介绍这两种策略。

02Lexical based

首先要介绍的是 Lexical based 方法。

先来明确一下任务定义。Lexical based，即大语言模型根据用户 query 生成检索到的相关商品的标题。任务看起来简单，但其实在电商场景下会面临一些挑战。

商品标题构造原则兼具全局无关与局部敏感双重特性：前者体现为关键词次序灵活变换，对意义解读影响有限；后者强调品牌、型号等核心信息的固定性，构成商品辨识的基石。例如，“小米红米 Note13 5G 一亿像素”中，“小米”、“红米”、“Note13”等关键词的顺序调整，对消费者的理解影响差异甚微。同时，同款商品标题中品牌名称的重复使用，虽可提高搜索覆盖面，却徒增不必要的运算负载。这一矛盾要求模型具备区分主次信息的能力，既要理解标题结构中的灵活性与刚性规则，又要有效滤除冗余，实现精准而高效的商品匹配。

基于短 query 生成商品标题的任务，存在信息冗余、泛化障碍、数据分布偏差及召回精准度差等难题。核心问题源自 query 的极度精简，平均仅 7 个 token，与平均 50+ token、信息饱满的标题目标形成鲜明对比。直接生成较长的标题可能导致显著的幻觉问题。尽管一些研究尝试利用预训练的语义 ID 作为文档标识符来简化任务，将其转换为查询到语义 ID 的映射，从而降低复杂性，但这种方法严重依赖外部文档表示，偏离了语言本身，并且需要额外的校准，降低了结果的可解释性。

再者，一对多映射的天然难题，叠加电商生态特有的数据分布失衡，构成了额外的障碍。热门 query 背后商品众多，占据主导地位；反之，长尾 query 对应商品寥寥，模型需在多样性与稀疏性之间寻找平衡，既