简介
本文介绍由南开大学、华为云及清华大学共同合作的论文:基于多源数据的微服务系统失败测试用例诊断。该论文已被FSE 2024(The ACM International Conference on the Foundations of Software Engineering) 会议录用,论文标题为: Fault Diagnosis for Test Alarms in Microservices Through Multi-source Data。
作者:张圣林,朱俊,郝博文,孙永谦,聂晓辉,朱静雯,刘喜临,李小倩,马宇驰,裴丹
随着微服务系统规模的扩张,保障微服务系统的稳定性愈发重要,大量的测试用例被设计用于检测微服务系统相关功能的可靠性,随之而来的是测试用例失败产生的大量测试告警。手动诊断这些告警对测试人员来说非常耗时耗力,因此自动化的测试告警故障诊断应运而生。测试告警中的故障诊断包括测试失败的故障分类和根因定位,能够帮助测试人员更加高效地处理日益增多的失败测试用例。然而,由于微服务系统的复杂性,已有的诊断测试告警的方法无法满足测试人员对于诊断准确度和精度的要求。
因此,文章提出了一种针对微服务测试告警的新型故障诊断框架 SynthoDiag ,通过知识图谱联合分析微服务系统测试过程中产生的多源日志(执行机日志、Trace日志和测试用例信息等)进行故障诊断。同时提出了根因关联和位置价值(EFA-PV)算法,用于定位与测试告警相关的日志行,减少测试人员的分析量。此外,文章采用一种高效的基于日志块的过滤方法,筛除测试过程中与故障无关的日志内容,显著提升了故障诊断的整体性能。SynthoDiag在来自华为云的大规模数据集