今年以来,生成式大模型技术取得飞速发展,相关应用层出不穷。然而,搜索场景下生成技术应用还没有深入的评测研究。目前,虽然抽取式智能问答系统已在搜索系统中有成熟应用,但其仍面临着搜索网页质量参差不齐,抽取答案内容单一、丰富性不足等难点。
如何从搜索多结果内容组织生成调研,即对于用户query,利用生成模型组织搜索引擎返回的多条检索结果,生成一个正确、丰富、语义通顺、完全满足用户需求的答案,提升搜索引擎的极致满足?
第二届百度搜索创新大赛正在揭开谜底。第二届百度搜索创新大赛,历经123天的角逐,已于近日落下帷幕。28支团队经过夜以继日的研究与努力,在大赛中脱颖而出,站上领奖台。其中,赛道一共有719人报名,组成的220支队伍作品提交上榜,经过激烈角逐,最终有10支队伍入围决赛,并进入颁奖现场。
搜索引擎何以提升用户极致满足?
从第二届百度搜索创新大赛设置的五大赛道来看,分别倾向于不同的议题,包括搜索答案组织、基于向量交集的TopK搜索、设计一个解决搜索用户需求的AI原生应用、基于GPU的近似最近邻检索算法挑战、可控图片生成算法挑战。赛道一“搜索答案组织”所解决的就是“提升搜索引擎的极致满足”的问题。
当你在百度搜索框中问一个问题,你是希望获得很多条相关的信息,还是一个精准的答案,相信必然是后者。
所以,在具体的任务设置中,赛道一的体现是:给定一个用户搜索问题query,多条搜索结果摘要,使用生成模型依据上述结果生成正确且丰富的答案。
对于数据集的要求,训练集包含8000个query,每个query下给出最多5条网页搜索结果中抽取的摘要作为参考,根据上述结果人工撰写的答案;验证集1000query,对应的搜索结果摘要和答案,测试集1000query和对应的搜索结果摘要。
在颁奖典礼现场,作为赛道一的冠军团队,来自中国科学院计算技术研究所的李一鸣发表了他的获奖感受。他表示,“刚刚看到赛道一的赛题的时候,我的大脑就像所起的队名一样‘None’空空如也,而且我的研究方向是多模态表征学习以及开放检测识别等与自然语言处理交际不大的方向,因此对于NLP领域的了解也像团队名字那样,一知半解。然而,抱着对当前比较火热大语言模型的好奇和兴趣,还是选择参加比赛竞赛,希望能够从中有所收获,也希望可以让我的技术水平从None慢慢变成CUDA。”
事实上,这也是百度搜索创新大赛举办的初衷。让每一位参赛者都能够在激烈的赛事中认清自身的优势,在赛事的实践与考验中形成属于自己的特色成果,确立未来的发展规划。
三大亮点诠释创新之处
结合本届百度搜索创新大赛的赛事成果来看,一切都是充满期待的。
每一位参赛者都潜心研究,即便在其中的过程中总会遇到困难,但他们从不放弃,并如愿取得了自己想要的成果。无论获奖与否,参与就是一种意义。对此,作为赛道一的冠军团队,也是团队中的唯一一员,李一鸣深有感触。
据李一鸣总结,他的获奖方案的亮点主要在于三大方面:
一是主要集中在对于大语言模型低秩适配上,采用了lora微调的方式。这一方式可以助力方案更新比较少的参数提升效率。同时,他还通过别的优化方式,优化训练推理参数配置,这样使生成答案不仅是真实、合理,也进一步提升了方案丰富性。
“我们都知道本次比赛希望参赛队伍针对用户数查询和网页返回多个检索摘要结果生成一个有意义、语义丰富答案反馈给用户,这就是这一方式所做到的。”李一鸣分析道。
二是对NLP领域认识更加深入,其也采用了更加先进的技巧——噪声微调。李一鸣介绍称,“该技巧是调研近期工作得到的想法,主要思想是针对输入指令加一些随机采样的噪声,因为任务形式比较单一,所以只是对于问题和检索返回摘要部分随机添加了噪声,希望以此使模型更加细致,同时可以缓解过拟合,使模型关注到输入文本中更多细节,从而使得它可以生成更加有意义和丰富的答案。”
三是将自身所擅长的领域中一些常见的方法,比如伪标签技术应用到本次比赛中。据此,李一鸣主要是采用了知识蒸馏的方式进行训练,额外搜集数据集,用教师模型为输入部分打一个伪标签。通过这种方式不仅可以在教师和学生间完成知识传递,同时可以训练出性能更好、并且更加易于部署的模型。除此之外,李一鸣还尝试了一些领域内语料预训练方式,进一步提升模型对于答案组织方式的理解。
拥抱年轻灵感,为技术基因注⼊新活力
挑战时刻都在,如何解决才是关键。
基于自身所积累的技术经验,在不断试错与摸索中,李一鸣最终在赛道一中脱颖而出。
“ ‘纸上得来终觉浅,绝知此事要躬行’,通过这次比赛对于NLP领域一知半解的我,在一步步调试优化大模型、一系列的过程中体会到了收获知识、提升技术的喜悦。”李一鸣表示。
李一鸣指出,“通过百度搜索创新大赛这样的线下交流展示的机会,不仅能够让我们利用所学的知识,真正去解决一些工业界的现实问题。同时在比赛中,也能够结识许多志同道合的朋友,在与他们交流过程中,进一步实现知识与技术上的沉淀与提升。”
通过李一鸣的参赛经历以及感受也能够看到,百度搜索正通过大赛这个平台与“新一代AI之星”产生着深入的碰撞。拥抱年轻⼈的灵感,为技术基因注⼊新的活力,这就是大赛的意义。