《LLM+搜索召排》10篇论文一览

最新推荐文章于 2024-11-05 15:27:08 发布

情迷搜广推

最新推荐文章于 2024-11-05 15:27:08 发布

阅读量1.1k

点赞数 21

分类专栏： LLM+搜索文章标签：机器学习算法人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_57384302/article/details/135077778

版权

在上篇《LLM+搜索改写》10篇论文一览中，我们介绍了LLM应用于搜索排序领域的一些文章，今天接着介绍LLM应用于召排的10篇文章。

召排作为搜索系统中的关键步骤，相关的模型和trick非常多，这里就不再介绍，直接进入主题。

一、召回

召回（retrive）是搜索系统中的核心模块，可分为基于统计算法的稀疏检索（Sparse Retriever）和基于神经网络的密集检索（Dense Retriever）。目前的检索仍存在以下问题：

query短且模糊
doc长且噪声多
监督数据标注成本高
PLM模型仍存在改进空间

目前不少研究将LLM引入检索模块，可以粗略分为基于encoder的检索器以及基于生成式的检索器。

基于encoder的LLM检索器

基于encoder的检索器指的是在密集检索中，使用LLM出色的语义能力获取query或doc的向量表示，用向量检索器进行检索召回。相关研究有下：

cpt-text：Text and Code Embeddings by Contrastive Pre-Training
GTR：Large Dual Encoders Are Generalizable Retrievers
TART：Task-aware Retrieval with Instructions

OpenAI在未标记的数据上使用带负采样的对比学习，将相邻的文本视为正样本，从头训练了四种参数级别的嵌入模型，命名为cpt-text，用以产生文本的高质量向量表示。这种结合预训练模型初始化、大批量对比学习和大规模训练的简单配方可以产生具有广泛能力的高质量文本向量，甚至会超越在领域内数据上微调后的语言模型。

cpt-text

但是对于大多数人来说，从头训练一个LLM的成本是非常高的。因此，有不少研究基于已有的LLM进行微调。GTR（Generalizable T5-based dense Retrievers）使用T5家族初始化双编码器模型参数，然后在数据集上进行微调。不管是cpt-text还是GTR，实验都表明，模型尺度越大，其无监督学习和文本搜索任务的迁移学习性能越好。

最低0.47元/天解锁文章

情迷搜广推

关注

21
点赞
踩
19

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

情迷搜广推 CSDN认证博客专家 CSDN认证企业博客

码龄4年

6: 原创

139万+: 周排名

9万+: 总排名

9780: 访问

: 等级

215: 积分

130: 粉丝

155: 获赞

3: 评论

149: 收藏

私信

关注

热门文章

分类专栏

LLM 1篇
LLM+搜索 4篇
RAG 2篇
向量检索 1篇

最新评论

RAG检索增强生成三大核心问题
CSDN-Ada助手: 恭喜作者在博客中探讨了RAG检索增强生成的三大核心问题！不仅标题引人入胜，内容也非常吸引人。通过深入剖析这些核心问题，读者们可以更好地了解RAG模型在检索增强生成任务中的应用。接下来，我希望作者能进一步拓展博客内容，探索一些实际案例或者提供一些实用技巧，以便读者更好地应用于实际工作中。期待作者的下一篇作品！
CIKM23向量检索5篇论文一览
CSDN-Ada助手: 恭喜您在博客上发布了新的一篇文章！看到您对CIKM23向量检索的5篇论文的总结，我感到非常欣慰。不过，我想给您提个小建议，希望您在下一篇文章中可以加入一些对这些论文的深入分析和个人见解，这样可以更好地展示您的学术见识和分析能力。期待您更多的精彩内容，加油！如何快速涨粉，请看该博主的分享：https://hope-wisdom.blog.csdn.net/article/details/130544967?utm_source=csdn_ai_ada_blog_reply5
《LLM+搜索数据增强》10篇一览，附一点个人经验
CSDN-Ada助手: 恭喜您写了第三篇博客！看到您对《LLM+搜索数据增强》系列的总结和个人经验分享，让我受益匪浅。希望您能继续坚持创作，不断分享您的见解和经验。下一步，我建议您可以尝试深入探讨某个具体的应用场景，或者对一些相关的新技术进行深入研究和分析，这样可以为读者提供更多有价值的内容。期待您的下一篇作品！ CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3
《LLM+搜索召排》10篇论文一览
CSDN-Ada助手: 非常棒的博客，很高兴看到你分享了关于LLM应用于召排的10篇论文。希望你能继续保持创作的热情，因为你的分享对于我们这些对这一领域感兴趣的人来说是非常有价值的。另外，除了介绍这些论文，如果能够结合自己的理解和实践经验，对于LLM在搜索召排中的具体应用进行深入解析，那将会更加丰富和有趣。另外，了解一些相关的机器学习算法和自然语言处理技术，对于深入理解LLM的原理和应用也会有所帮助。期待你更多的精彩内容！如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2
《LLM+搜索改写》10篇论文一览
CSDN-Ada助手: 恭喜你开始了博客创作，这篇《LLM+搜索改写》10篇论文一览的文章内容丰富，对于研究LLM+搜索改写领域的学术论文进行了全面梳理。接下来，可以考虑结合自己的研究经验，对于这些论文的研究方法和成果进行深入的分析和讨论，这样可以更好地展示你的学术见解。期待你未来更多精彩的博客内容！推荐【每天值得看】：https://bbs.csdn.net/forums/csdnnews?typeId=21804&utm_source=csdn_ai_ada_blog_reply1

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。