前字节员工:面了40家,终于第一个offer,降薪60%,接了!

前字节员工跳槽,面了 40 多家才拿到一个 offer,还是降薪 60%,大厂如此,更别提中小厂了。。。目前这种形势,最好的策略就是苟住本职工作,锻炼自身技能,同时发展副业,降低负债,度过经济下行期,主旋律就是活下去。

今天我们来聊聊 RRF(Reciprocal Rank Fusion),如果你简历上写了 RAG 的内容,一定要清楚以下 RRF 相关的问题。

想象一下这样一个场景,你正准备接受一场关于大模型中 RRF 的面试。面试官笑容满面地走进来,手里拿着你的简历,目光停留在“精通 RRF”这几个字上。你写的这个精通,可能是加分项,也可能是陷阱。

这时候,面试官可能就要开始炮轰你了!比如说,“老铁(niuma),既然你在简历里写着精通 RRF,那我可得好好考考(weinan)你。”

此时,你就得准备好接招,给出惊艳的回答。那么面试官到底会问些啥,面对这些问题阁下又该怎么应对呢?

01

什么是RRF?

面试官一上来可能就会问你这个问题,这是个很基础但也很关键的问题。

你可以这样轻松应对,简单来说 RRF 是一种排名融合方法,主要用于将多个检索器的结果合并成一个统一的排名。

在 RAG(检索增强生成)系统中,这非常关键,因为不同的检索器可能会有不同的优势和不足,通过RRF可以结合它们的长处,提供更精准的结果。

具体来说,RRF 使用一个公式来计算每个文档的总得分:

这里,d 是文档,R 是检索器的集合,k 是一个常数,通常取 60,r(d)是文档在某个检索器中的排名。

02

为什么选择这个公式?它的优势是什么?

上面你无意间抛出了RRF的计算公式,这时面试官就会称热打铁继续追问,既然你选择这个公式,那请你详细给我讲讲选择这个公式的原因以及它的优势所在。

这时,你内心窃喜,接下来就为他好好说道说道,这个公式的妙处在于它使用了倒数排名(Reciprocal Rank),即:

这样,排名越高的文档贡献的得分越大,这有助于确保多个检索器共同认为重要的文档在最终排名中占据优先位置。

同时,随着排名的增加,贡献得分的增速会减缓,这意味着排名 1 和排名 2 之间的差异比排名 100 和 101 之间的差异更显著。

另外,常数k 起到了平滑因子的作用,防止单个检索器对结果的主导性太强,还能更好地处理排名相近的文档。

03

你提到的k=60是怎么来的?

既然提到了常数k,面试官肯定不会就这么被你唬住,而是会对你施加更深层的拷问,你我给好好解释一下 k=60 的出处。

你当然不会被难倒,脱口而出回答到这个值主要是基于经验和实际效果的考量,k=60 在多种数据集和检索任务中表现良好,它在高排名和低排名项的影响之间提供了良好的平衡。

比如说,排名 1 时的得分是:

排名 10 时是:

排名 100 时是:

这帮助我们在高排名和低排名项之间找到一个平衡点,确保平局时能有效区分。

04

RRF在RAG系统中的实际应用流程?

对于你自己熟悉的 RRF,在丝滑流畅的答完上面几个问题后,现在面试的节奏基本就握在了你手里。 最后面试官必定会问RRF 在 RAG 系统中的实际应用。

这个问题考察的就是你是否真的吃透了 RRF 在 RAG 中的应用原理。你可以稍微梳理一下思路,给出清晰准确的回答。

RRF 在 RAG 系统中的应用可以分为几个步骤:

  1. 用户输入查询,系统开始处理。

  2. 查询被发送到多个检索器,这些检索器可以是不同的检索模型,例如密集型、稀疏型或者混合型。

  3. 每个检索器生成自己的相关文档排名。

  4. 使用 RRF 公式将所有检索器的排名结合起来,计算每个文档的总得分。

  5. 根据 RRF 得分生成最终的统一排名。

  6. 最后,生成模型使用排名靠前的文档来生成最终的答案。

通过这样的流程,RRF 能有效地综合多个检索器的结果,提高 RAG 系统的整体性能和准确性。

在这场关于 RRF 在 RAG 系统中的面试中,如果你能清晰准确地回答上述问题,展现出扎实的知识储备和清晰的思路,那通过的概率就很大啦。要记住,如果不是基础知识,一般是不会扣分的。

有时候,公司要求“懂 RRF 技术”,可能是面试官的话术陷阱。但最忌讳的就是说谎,猜中了或许没事,可猜不中,你觉得面试官会怎么想?所以,保持真诚和专业,才能在面试中脱颖而出!

那么,如何系统的去学习大模型LLM?

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

作为一名热心肠的互联网老兵,我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。

但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

所有资料 ⚡️ ,朋友们如果有需要全套 《LLM大模型入门+进阶学习资源包》,扫码获取~

篇幅有限,部分资料如下:

👉LLM大模型学习指南+路线汇总👈

💥大模型入门要点,扫盲必看!
在这里插入图片描述
💥既然要系统的学习大模型,那么学习路线是必不可少的,这份路线能帮助你快速梳理知识,形成自己的体系。

路线图很大就不一一展示了 (文末领取)
在这里插入图片描述

👉大模型入门实战训练👈

💥光学理论是没用的,要学会跟着一起做,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。
在这里插入图片描述

👉国内企业大模型落地应用案例👈

💥两本《中国大模型落地应用案例集》 收录了近两年151个优秀的大模型落地应用案例,这些案例覆盖了金融、医疗、教育、交通、制造等众多领域,无论是对于大模型技术的研究者,还是对于希望了解大模型技术在实际业务中如何应用的业内人士,都具有很高的参考价值。 (文末领取)
在这里插入图片描述

👉GitHub海量高星开源项目👈

💥收集整理了海量的开源项目,地址、代码、文档等等全都下载共享给大家一起学习!
在这里插入图片描述

👉LLM大模型学习视频👈

💥观看零基础学习书籍和视频,看书籍和视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。 (文末领取)
在这里插入图片描述

👉640份大模型行业报告(持续更新)👈

💥包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。
在这里插入图片描述

👉获取方式:

这份完整版的大模型 LLM 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

😝有需要的小伙伴,可以Vx扫描下方二维码免费领取🆓

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值