本文根据本届挑战赛程序委员会主席、中国科学院计算机网络信息中心副研究员裴昶华在2024 CCF国际AIOps挑战赛线下宣讲会上为《2024 CCF国际AIOps挑战赛·赛题与赛制》的分享整理而成,全文分为挑战赛背景介绍、题目简介、流程说明和评分规则等部分,最后简要介绍了参考文献,供选手参考。
本届挑战赛背景介绍
众所周知,运维领域本身很多的行业特点,比如存在时序指标、日志、调用等多模态数据,对实时数据的要求比较高,数据之间的依赖关系复杂。例如,下图左下角是一个电商系统的样例,可以看到它的节点依赖情况。另外,还存在着领域知识以及多样化的下游场景。所以,当我们真正去做智能运维的时候就会有很多的小模型,需要解决很多的问题,也面临了很多的挑战。
但是,大模型出现之后给智能运维带来了一些新的不同和新的变化。这里,我总结的大语言模型的三个特点:
- 第一个特点是博闻强记,指的是所有大模型见过的知识,不论或多或少或生僻,它都能够很好地记住,能够准确的复述回答。
- 第二个特点是文采飞扬,指的是大模型能够基于以前见过的知识,比较好地迁移到新的场景里,这种zero
shot的能力其实对运维来人员来说是非常必要的。 - 最后,也是大模型最重要的一个能力,我把它总结为浮想联翩,指的是大模型不光能做问答,还能够调用很多的小模型,很多的工具。我们之前在很多年中积累的一些工具,它都能够很好地调用起来。
这里,我们能够看到在“大模型时代的AIOps”有一些怎样的前景。
在国内进行探索的时候,其实国外一些非常著名的智能运维公司,已经开始把大模型技术应用到了智能运维。比如DATADOG,利用大模型去构建自动化的运维工作流,去做问题代码的fix。像dynatrace去做Query2SQL,用大模型去写SQL的语句,做日常的异常预警。splunk是一个日志的公司,它主要用大模型去做日志的异常检测。BigPanda做告警生成。这些不是方案,是已经在它们的公司里真实使用起来的。
大家都很关心在大模型时代AIOps将会怎样发展,这里总结了”大模型时代AIOps”的几个要素:
首先,通识大语言模型做为L0层是必不可少的。
其次,取决于场景里面的数据,如果说数据质量比较好,比较容易获取的话,我们也可以去训练运维的大语言模型,主要是解决开源大模型无法理解私域场景里面的“黑话”。
另外,就是RAG技术。我们可能没有足够的数据去训练模型,那就可以用这种外挂的方式跟大模型结合起来,用大模型的自然语言能力结合私域文档去做知识问答。
此外,前面也提到智能运维领域与语言大模型不同,时序数据其实是非常重要的一个模态。因为就需要时空大模型,或者基于时空小模型的智能体,把它编排起来去做持续的异常检测。
岗位Copilot:如上图是用大模型生成的,虽然大模型不能完全代替人,但是以后的每一个运维人员可能都会辅助一个小的机器人助手。比如做数据库的,可能有一个DBA Copilot,做应用的有Application Copilot。所有这些小的机器人作为岗位智能体,辅助人来提升运维效率,节省人力成本。
最后,人机协同也是必不可少的。在以后的智能运维里面可能个人不做具体的,例如拉曲线、看曲线、检测曲线的工作,而更多是基于智能体给到的信息去做决策。
这是大模型时代的AIOps要素,目前如上的各个方面都有很多的研究在同步推进。本届挑战赛主要针对其中的RAG 技术做重点突破。
为什么要选择RAG呢?在一年前可能大很多人都会在聊到底应该训练大模型,还是利用RAG技术,但时至今日已经达成共识,RAG技术是未来垂直领域应用的关键。如上图右下角可见,有88%的人认为RAG技术是未来大模型应该提供的API必须要具备的。
RAG具备有很多的优点。对于长尾的知识、私有的知识能够应用得很好。比如说之前有公司表示,说不想把其私域数据训练到模型里面,因为一旦训练到模型里面大家都能够access到它的data,权限不好控制。那怎么解决?就是把具有不同权限的文档结合RAG构建不同的向量数据库。另外,大模型训练需要的时间比较长,比如目前的GPT4还停留在去年6月份,所以说它知识的更新换代是跟不上的,但是RAG它就没有这个缺点。
基于这些优点的话,目前RAG大概分为以下几个模块,每一个模块的优化都可能影响到最后的问答的效果。虽然现在RAG的框架非常多,但不管这个框架如何其实都离不开如下六大模块。第一大块是整体数据,也就是本次挑战赛中兴通讯提供的文档。第二,我们会把这些文档进行分块。第三是建立向量数据库,向量数据库以Embedding为key,以文本框为value。第四,当用户的请求来了之后,我们会把用户的请求变成向量,去向量数据库里面检索跟它相近相关的文本块。第五,检索出的文本块进行排序和后处理。最后,结合大模型进行回答组装并生成相关的引用,生成相关的引用能够使内容更可信。
赛题介绍
前面整体介绍了大模型的必要性以及RAG的优点和背景,接下来对今年的赛题进行介绍。
CCF 国际AIOps挑战赛迄今第七届,本届挑战赛由中国计算机学会(CCF)主办,中国计算机学会互联网专委会、清华大学、中国科学院计算机网络信息中心承办,中兴通讯、北京智谱华章科技有限公司、中南大学计算机学院、清华大学计算机科学与技术系、北京必示科技有限公司协办。同时,本届AIOps挑战赛也是OpenAIOps社区成立之后第一届重要年度赛事。
去年挑战赛的“开放式赛题”已经带来了一些大语言模型应用方案,但是更多的方案是没有落地可评测,今年我们需要看到具体的落地应用效果。
本届挑战赛的赛题方向:“基于检索增强的运维知识问答”挑战赛。
首次采用大模型检索增强(RAG)技术,基于5G领域运维技术文档,探索如何结合领域私有技术文档进行高效私域知识问答。揭示在通用大语言模型基座下,垂直领域知识问答面临的领域知识缺失,公私域知识冲突,多模态图表并存等一系列挑战。
本届大赛采用双赛道赛制。
赛道一:使用开源的Qwen1.5-14b模型,可以自由选择对模型微调或不微调,进行RAG问答。在挑战赛官网上,我们也做了一些参考范例,供大家参考使用。
赛道二:调用智谱GLM4的API接口,模型不能微调,模拟在特定场景下没有自己微调模型能力的运维场景。
参赛队伍自由选择赛道,可以两个赛道都参加,也可以只参加一个赛道,最终成绩按照最好排名的赛道计算。
报名后,可以在挑战赛官网相应赛事的数据页面看到下载方式。本届赛事目前已经提供了约4万页的垂直领域文档,目前分为DIRECTOR、UMAC、EMSPLUS、RCP4个项目,这4个项目是5G的4大模块。
下载地址:挑战赛官网-数据Tab下,链接为:https://www.modelscope.cn/datasets/issaccv/aiops2024-challenge-dataset
举个例子,上图是数据原始材料介绍了NPCF的服务操作。
评测题目:Npcf_SMPolicyControl服务包含哪些操作?
专家人工答案:包含Create、Update、UpdateNotify、Delete操作
选手可以微调或者调用模型,基于文档构建RAG去回答问题,然后在线进行评测。
目前提供了两种数据格式(内容相同),HTML格式和TXT格式。TXT它相比HTML格式,没有跳转链接,会丢失文档间的关系性,建议有能力的选手更多的去用HTML格式,信息更加丰富。目前初赛已经公布100道精选题目,选手可以基于题目进行优化。
本次挑战赛的竞赛环境将在魔搭社区,每个参赛的选手申请到了100个小时的32GB显存的GPU以及比赛期间的免费CPU资源,然后提供了step by step的参考的范例,可以参考也可以做新的方案。
奖项设置
本届大赛奖金池总额¥140,000,两个赛道合并评分。
一等奖1名,奖金¥50,000;
二等奖2名,奖金¥30,000;
三等奖3名,奖金¥10,000。
(以上提及金额为税前金额)
赛程安排
本次挑战赛正式赛程预计跨越5个月,5月12日举办线下宣讲会,同时启动报名;6月开启初赛,选拔20+支队伍晋级复赛;7月进行复赛,最终决胜出10支队伍晋级决赛;9月将进行最终的决赛答辩和研讨会。
报名时间:2024年5月12日-6月11日
报名流程:参赛选手在官网(https://aiops-challenge.com)进行注册,按照提示填写账户资料、绑定手机号、进行实名认证,实名认证经审核通过后,即可点击“参加比赛”报名。
创建队伍:选手报名后自动创建团队,可邀请其他成员加入,组队完成后由队长确认“确认组队完成”。
资源申请:选手需“确认组队完成”(单人参赛也需要确认)后,请以团队为单位,填写资源需求表(每支队伍提交一份即可,不超过5个账号;如果参加赛道一,仅填写魔搭资源需求表即可。如果赛道二,则还需填写智谱GLM-4资源需求表),组委会将根据需求表信息为参赛各队伍提社区资源。
魔搭资源:每个账号 100小时32GB显存GPU+比赛期间免费CPU计算资源
智谱GLM-4资源:每个账号 200万 GLM-4 API 免费 tokens
评分规则
大赛分为初赛、复赛和决赛三个阶段。
初赛只需要提交答案,不强制提交文档。最后从每个赛道排行榜选择至少10个(累计20+)比赛队伍进入复赛。
如果两个赛道均参加,以最佳成绩所在赛道为主。
如果榜单成绩不佳,但方案设计有新意,可联系主办方提交设计文档。主办方会组织专家进行评审项目创新度(不多于10名,以提交顺序为准),项目创新度高的队伍可以直通复赛,原则上直通名额两个赛道累计不大于5名。
复赛20多支队伍除了会在隐藏赛题上评测,还需要提交设计文档。主办方会组织业内专家,开展复赛评审会,综合复赛榜单成绩和技术方案文档,选择打分前10名进入决赛。
前10名复赛胜出选手在决赛当天现场ppt答辩,决赛嘉宾现场投票决定排名和获奖名单。
本届挑战赛使用自动化评测方案,选手上传答案脚本,实时更新榜单。
本届挑战赛报名已开启,欢迎参与!更多赛事相关信息将在社区“智能运维前沿”公众号发布,同时OpenAIOps社区群将提供赛事通知、技术答疑,有意者可扫码添加官方微信号(OpenAIOps社区小助手)入群。
参考文献
·Knowledge Graph Prompting for Multi-Document Question Answering, AAAI 2024
·Never Lost in the Middle: Improving Large Language Models via Attention Strengthening Question Answering, arXiv:2311.09198
·Visconde: Multi-document QA with GPT-3 and Neural Reranking, arXiv:2212.09656
·End-to-End Training of Multi-Document Reader andRetriever for Open-Domain Question Answering, NeruIPS 2021
·Chatlaw: Open-source legal large language model with integrated external knowledge bases, arXiv:2306.16092
·Self-rag: Learning to retrieve, generate, and critique through self-reflection, arXiv:2310.11511
·Pdftriage: Question answering over long, structured documents, arXiv:2309.08872
·Answering Complex Questions by Joining Multi-Document Evidence with Quasi Knowledge Graphs, SIGIR 2019