01背景/现状介绍
1. 业务场景概述与搜索链路挑战
在搜索链路的召回环节,面对庞大的商品库规模,从千万至数十亿的商品中快速提取潜在相关商品,需在时间与资源约束下,确保效率与性能兼备。
基于文本信息的双塔架构(表示+索引)已广泛应用于商品检索中。该方法通过用户点击数据,将查询词和商品文本映射到相同的语义空间,利用内积或余弦相似度实现高效检索。然而,为了适应快速检索需求,双塔架构减少了塔间交互,导致模型在精确语义匹配和长尾数据场景中表现不佳。尽管后期尝试引入交互或伪交互改进,仍受限于基本双塔架构,未从根本上革新交互方式,加之索引维护成本与精度折损的挑战,促使业界寻求破局之策。
在此背景下,生成式检索异军突起,颠覆传统检索逻辑,借力语言模型实现查询到商品信息的直接端到端映射,即时生成高度相关的商品列表,开创了深度、连贯的交互新模式,尤其在复杂语义匹配领域展现出巨大潜力。
生成式检索凭借四方面核心优势提升了搜索体验:
-
链路损耗规避:摒弃传统多步骤流程中的信息衰减,实现 Query 至结果展示的一体化。
-
索引管理优化:将原有索引转换为轻量级索引,简化数据库管理,显著降低存储与检索开销。
-
模型表现升级:持续迭代优化每一步推荐过程,集成 GPT 等先进语言模型,深化特征抽取,增强理解和生成能力,特别在多样化和长尾商品描述中展现卓越效能。
-
知识融合增强:挖掘大型语言模型蕴含的世界知识,促进推荐智能化与个性化,助力冷启动破解及长尾产品推广。
不过,挑战犹存,商品表示困难、文本长度过长、噪音大、词序无关以及训练难度高仍是亟需攻克的技术壁垒。
针对生成式检索的优化,我们进行了两方面的探索,一个是 Lexical based,另一个是 SemanticID based。Lexical 聚焦于运用自然语言的词汇单元作为文本表征;而 Semantic ID,则转向数值基底,借助数字序列来描绘文本特征,具体实践上,先通过外部编码器转换文本,继之以层次聚类技术生成 ID 标识。
这两种策略各具特色:
-
Lexical 直接受益于大语言模型的强大功能,无需附加信息导入即可充分发挥模型效能,展现出较高的透明度与灵活性;
-
Semantic ID 则擅长抽象化处理,通过数字编码精炼文本内涵,适用于深度挖掘文本背后的语义关联。
接下来将分别展开介绍这两种策略。
02Lexical based
首先要介绍的是 Lexical based 方法。
先来明确一下任务定义。Lexical based,即大语言模型根据用户 query 生成检索到的相关商品的标题。任务看起来简单,但其实在电商场景下会面临一些挑战。
商品标题构造原则兼具全局无关与局部敏感双重特性:前者体现为关键词次序灵活变换,对意义解读影响有限;后者强调品牌、型号等核心信息的固定性,构成商品辨识的基石。例如,“小米红米 Note13 5G 一亿像素”中,“小米”、“红米”、“Note13”等关键词的顺序调整,对消费者的理解影响差异甚微。同时,同款商品标题中品牌名称的重复使用,虽可提高搜索覆盖面,却徒增不必要的运算负载。这一矛盾要求模型具备区分主次信息的能力,既要理解标题结构中的灵活性与刚性规则,又要有效滤除冗余,实现精准而高效的商品匹配。
基于短 query 生成商品标题的任务,存在信息冗余、泛化障碍、数据分布偏差及召回精准度差等难题。核心问题源自 query 的极度精简,平均仅 7 个 token,与平均 50+ token、信息饱满的标题目标形成鲜明对比。直接生成较长的标题可能导致显著的幻觉问题。尽管一些研究尝试利用预训练的语义 ID 作为文档标识符来简化任务,将其转换为查询到语义 ID 的映射,从而降低复杂性,但这种方法严重依赖外部文档表示,偏离了语言本身,并且需要额外的校准,降低了结果的可解释性。
再者,一对多映射的天然难题,叠加电商生态特有的数据分布失衡,构成了额外的障碍。热门 query 背后商品众多,占据主导地位;反之,长尾 query 对应商品寥寥,模型需在多样性与稀疏性之间寻找平衡,既