“PaSa: An LLM Agent for Comprehensive Academic Paper Search”
学术论文搜索是研究的核心,但代表了一项特别具有挑战性的信息检索任务,需要长尾专业知识、全面的调查级覆盖和解决细粒度查询的能力。
本文提出了PaSa,一个由LLM驱动的高级论文搜索代理,旨在模仿人类行为进行全面和准确的学术论文搜索。PaSa由两个LLM代理组成:Crawler(爬虫)和Selector(选择器),Crawler收集相关论文,Selector判断论文是否符合用户查询要求。为了训练PaSa,开发了两个高质量的复杂学术搜索数据集AutoScholarQuery和RealScholarQuery。
实验表明,PaSa-7b表现优于GPT-4o、Google和ChatGPT。PaSa-7b在AutoScholarQuery测试集上,Recall@20和Recall@50分别比Google与GPT-4o提高34.05%和39.36%。在RealScholarQuery上,PaSa-7b的Recall@20和Recall@50分别比Google与GPT-4o提高37.78%和39.90%。PaSa-7b在召回率上超越PaSa-GPT-4o 30.36%,在精确度上超出4.25%。
项目主页:https://pasa-agent.ai
论文地址:https://arxiv.org/abs/2501.10120
Github地址:https://github.com/bytedance/pasa
【 扫描文末二维码加入星球获取论文、源码 】
摘要
PaSa是一个由LLM驱动的高级论文搜索代理,通过强化学习和合成数据集AutoScholarQuery进行优化,该数据集包含35k细粒度学术查询和来自顶级AI会议出版物的对应论文。
PaSa在RealScholarQuery基准测试中的表现显著优于现有基线,包括谷歌、谷歌学术、谷歌与GPT-4用于改写查询、chatGPT(搜索启用的GPT-4o)、GPT-o1和PaSa-GPT-4o(通过提示GPT-4o实现的PaSa)。PaSa-7B在recall@20和recall@50上分别超过了最佳谷歌基线谷歌与GPT-4o的37.78%和39.90%,在召回率上超过了PaSaGPT-4o的30.36%,在精确度上超过了4.25%。
简介
学术论文搜索是研究的核心,但代表了一项特别具有挑战性的信息检索任务,需要长尾专业知识、全面的调查级覆盖和解决细粒度查询的能力。本文介绍了PaSa,一个新颖的论文搜索代理,旨在模仿人类行为进行全面和准确的学术论文搜索。
PaSa由两个LLM代理组成:Crawler(爬虫)和Selector(选择器),Crawler收集相关论文,Selector判断论文是否符合用户查询要求。它们可以自主地使用在线搜索工具、阅读整篇论文和导航引用网络。
为了训练PaSa,开发了两个高质量的复杂学术搜索数据集:AutoScholarQuery和RealScholarQuery。尽管PaSa仅在合成数据上进行训练,但它在现实世界中的表现却非常出色。实验表明,基于7B大型语言模型的PaSa在所有基线中表现突出,包括GPT-4代理、基于谷歌的搜索和chatGPT。PaSa-7b在AutoScholarQuery测试集上,Recall@20和Recall@50分别比Google与GPT-4o提高34.05%和39.36%。在RealScholarQuery上,PaSa-7b的Recall@20和Recall@50分别比Google与GPT-4o提高37.78%和39.90%。PaSa-7b在召回率上超越PaSa-GPT-4o 30.36%,在精确度上超出4.25%。
相关工作
科学发现LLM
LLMs在科学发现的各个阶段得到应用,包括头脑风暴、实验设计、编写代码和生成研究论文。学术调查是研究中的关键阶段,但现有工具(如Google Scholar)常常不足,导致文献回顾耗时。为解决这一问题,开发了PaSa,一个旨在自主全面协助研究人员收集相关文献的LLM代理。
LLM代理
LLM Agents结合了记忆、工具使用和规划,能够执行复杂任务,如个人助手、旅行规划、网络操作、软件开发和科学实验。研究集中在通过提示工程和优化训练实现LLM Agents。AGILE是一个强化学习框架,支持LLM Agents的技能联合优化。本文采用AGILE框架实现PaSa,设计了新的会话级PPO算法,以应对论文搜索任务中的稀疏奖励和长轨迹挑战。
数据集
AutoScholarQuery
AutoScholarQuery是一个针对AI领域的学术查询和相关论文的合成高质量数据集。数据集基于ICLR 2023、ICML 2023、NeurIPS 2023、ACL 2024和CVPR 2024的论文,使用GPT-4o生成查询,查询答案对应相关文献。仅保留可在arXiv上检索的论文,使用arxiv_id作为唯一标识,查询日期为源论文的出版日期。
数据集包含33,551个训练实例、1,000个开发实例和1,000个测试实例,每个实例包括查询、相关论文集和查询日期。质量评估中,94.0%的查询被认为合格,93.7%的合格查询对应的论文被认为相关。
RealScholarQuery
RealScholarQuery数据集包含50个真实研究查询。邀请AI研究者使用PaSa系统,收集并筛选出细化的查询。手动收集相关论文,并通过多种方法(包括PaSa、Google、ChatGPT等)检索更多论文。专业评审员审核候选论文,选出符合查询要求的最终论文集。所有查询的日期为2024-10-01,评审由中国顶尖大学计算机系教授进行,平均每个查询审查76篇论文。
方法
概览
PaSa系统由两个LLM代理组成:爬虫(Crawler)和选择器(Selector)。Crawler读取用户查询,生成多个搜索查询,检索相关论文并添加到论文队列。Crawler进一步处理论文队列中的每篇论文,识别值得深入探索的关键引用,并将新相关论文添加到论文列表。Selector对论文列表中的每篇论文进行审查,以评估其是否满足用户查询要求。Crawler旨在最大化相关论文的召回率,Selector则强调识别符合用户需求的论文的精确性。
Crawler
Crawler执行基于令牌的马尔可夫决策过程(MDP),动作空间为LLM词汇,状态由当前上下文和论文队列定义。Crawler有三个注册函数:搜索、扩展和停止,分别对应不同的动作。
训练分为两个阶段:模仿学习和强化学习,使用AutoScholarQuery数据集。奖励设计基于查询q和论文集P,执行动作的奖励与匹配的论文数量相关。为避免稀疏奖励,使用Selector作为辅助奖励模型,改进匹配定义。训练中的挑战是采样完整轨迹耗时,定义会话为从初始状态到[Stop]动作的子轨迹。在PPO训练中,通过蒙特卡洛采样估计会话中的回报。
Selector
Selector是一个LLM代理,接受学者查询和研究论文作为输入,输出决策令牌(True或False)和支持决策的理由。理由的作用是提高决策准确性和用户信任。为优化Crawler的训练效率,决策令牌在理由之前呈现,允许Selector作为单令牌奖励模型。决策令牌的概率可用于搜索结果排名。决策和理由的顺序不影响Selector的性能。采用模仿学习优化Selector。
实验
实验设置
PaSa-7b是基于Qwen2.5-7b的最终代理,包含Selector和Crawler两个部分。Selector经过1个epoch的监督微调,学习率为1e-5,批量大小为4,使用8个NVIDIA-H100 GPU训练。Crawler的训练分为两个阶段:第一阶段为模仿学习,使用12,989条数据,1个epoch,学习率1e-5,批量大小为4;第二阶段为PPO训练,先冻结策略模型训练价值模型,再共同训练。
模仿学习阶段处理5,000个查询,RL训练阶段处理16,000个查询。实现搜索功能时,利用LLM预测查询,并调用Google进行特定网站和时间的搜索。开发数据库管理研究论文,PaSa从数据库中检索信息,若无记录则通过ar5iv获取并解析论文内容。
基线和评估
评估了PaSa-7b在AutoScholarQuery和RealScholarQuery测试集上的表现。
对比基线包括:Google、Google Scholar、Google与GPT-4o、ChatGPT、GPT-o1、PaSa-GPT-4o。
PaSa的爬虫过程可视化为论文树,探索深度限制为3。Google基线使用Recall@20、Recall@50、Recall@100评估召回率,其他基线评估最终检索论文的精确度和召回率。比较了PaSa-GPT-4o与PaSa-7b的爬虫召回率。
**结果
**
PaSa-7b在AutoScholarQuery测试集上优于所有基线,较强基线PaSa-GPT-4o的召回率提高9.64%,精度相当。PaSa-7b的Crawler召回率比PaSa-GPT-4o高3.66%。与Google基线(Google with GPT-4o)相比,PaSa-7b在Recall@20、Recall@50和Recall@100上分别提高33.80%、38.83%和42.64%。在推理过程中多次使用Crawler可提升性能,Crawler召回率提高3.34%,整体召回率提高1.51%,精度保持相似。
在RealScholarQuery上,PaSa-7b相较于PaSa-GPT-4o召回率提高30.36%,精度提高4.25%。对比Google基线,PaSa-7b在RealScholarQuery的Recall@20、Recall@50和Recall@100上分别提高37.78%、39.90%和39.83%。PaSa-7b-ensemble进一步提升Crawler召回率4.32%,整体系统召回率提高3.52%。
Selector在RL训练中作为决策者和辅助奖励模型,性能至关重要。收集了200个查询-论文对的数据集,标注论文是否符合查询要求,作为评估基准。Selector的F1分数为85%,优于GPT-4o(5%)和Qwen-2.5-7b(30%)。与推理先于决策生成的设置相比,性能相当。Selector的精确度达到95%,验证了其作为辅助奖励模型的有效性。
**消融分析
**
消除Crawler中的[Expand]动作导致AutoScholarQuery和RealScholarQuery的召回率分别下降22.98%和32.21%。
强化学习(RL)训练提高了AutoScholarQuery和RealScholarQuery的召回率,分别增加6.24%和19.96%。
移除Selector作为辅助奖励模型使AutoScholarQuery和RealScholarQuery的召回率下降3.76%和9.63%。
调整RL训练中的奖励系数α可以有效影响PaSa的行为,随着奖励增加,Crawler的召回率和动作数量均增加。
总结
本文介绍PaSa,一个新型学术论文搜索代理,旨在提供复杂学术查询的全面准确结果。PaSa在AGILE强化学习框架中实现,使用AutoScholarQuery数据集进行训练,包含细粒度学术查询及顶级AI会议论文。评估使用RealScholarQuery数据集,包含实际学术查询及标注论文。
实验结果显示,PaSa在召回率上超越所有基线,包括Google、Google Scholar及多种GPT模型。PaSa-7B在召回率@20和@50上分别比Google与GPT-4o高出37.78%和39.90%,并在召回率和精确度上超越PaSa-GPT-4o。结果表明,PaSa显著提高了学术搜索的效率和准确性。
如何学习AI大模型 ?
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。【保证100%免费】🆓
CSDN粉丝独家福利
这份完整版的 AI 大模型学习资料已经上传CSDN,朋友们如果需要可以扫描下方二维码&点击下方CSDN官方认证链接免费领取 【保证100%免费】
读者福利: 👉👉CSDN大礼包:《最新AI大模型学习资源包》免费分享 👈👈
对于0基础小白入门:
如果你是零基础小白,想快速入门大模型是可以考虑的。
一方面是学习时间相对较短,学习内容更全面更集中。
二方面是可以根据这些资料规划好学习计划和方向。
👉1.大模型入门学习思维导图👈
要学习一门新的技术,作为新手一定要先学习成长路线图,方向不对,努力白费。
对于从来没有接触过AI大模型的同学,我们帮你准备了详细的学习成长路线图&学习规划。可以说是最科学最系统的学习路线,大家跟着这个大的方向学习准没问题。(全套教程文末领取哈)
👉2.AGI大模型配套视频👈
很多朋友都不喜欢晦涩的文字,我也为大家准备了视频教程,每个章节都是当前板块的精华浓缩。
👉3.大模型实际应用报告合集👈
这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。(全套教程文末领取哈)
👉4.大模型落地应用案例PPT👈
光学理论是没用的,要学会跟着一起做,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。(全套教程文末领取哈)
👉5.大模型经典学习电子书👈
随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。(全套教程文末领取哈)
👉6.大模型面试题&答案👈
截至目前大模型已经超过200个,在大模型纵横的时代,不仅大模型技术越来越卷,就连大模型相关的岗位和面试也开始越来越卷了。为了让大家更容易上车大模型算法赛道,我总结了大模型常考的面试题。(全套教程文末领取哈)
👉学会后的收获:👈
• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;
• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;
• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;
• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习
CSDN粉丝独家福利
这份完整版的 AI 大模型学习资料已经上传CSDN,朋友们如果需要可以扫描下方二维码&点击下方CSDN官方认证链接免费领取 【保证100%免费】
读者福利: 👉👉CSDN大礼包:《最新AI大模型学习资源包》免费分享 👈👈