背景与目标 成果:
本文提出了CoLA框架,旨在将对比学习拓展到图网络的异常检测中,同时在以往图信息提取器的基础上进行了优化,以更好的利用图属性网络间的信息,总的来说,CoLA框架的创新设计使其在属性网络上的异常检测任务中表现出色,尤其是在面对大规模网络时,它的计算效率和检测精度都有明显优势,且可以在无标准信息网络效果明显。
核心设计理念:
通过对于学习的特性,可以有效感知网络结构中节点A与其他节点间的关系,此文将正常网络中,节点A周边的节点视为正样本,其他无关节点随机选择作为负样本,则系统可以学习到正常节点的标注特点,当出现异常节点时,其与周边节点差异会很大,进而被判断为异常。
模型架构:
概要设计:
图神经模块:用于卷积节点周边的信息,加大信息密度,扩大感受野
读取模块:以池化层读取卷积后的信息 可以理解为将节点转化为embedding
对比学习模块:选取真是周边邻居的部分作为正样本,随机样本作为负样本,进行训练
判定阶段:进行多轮采样,避免一次随机采样的误差
- 每轮采样都会计算目标节点与局部子图的匹配分数(agreement score),包括正样本的匹配分数和负样本的匹配分数。
- 对每个目标节点,多轮采样得到的分数会进行汇总,通常是通过计算多轮采样的平均分数来确定最终的异常评分。
异常分数的公式如下:
f(vi)=1R∑r=1R(si(−)−si(+))f(v_i) = \frac{1}{R} \sum_{r=1}^{R} (s_i^{(-)} - s_i^{(+)})f(vi)=R1r=1∑R(si(−)−si(+))
其中,si(−)s_i^{(-)}si(−) 是第 rrr 轮负样本的分数,si(+)s_i^{(+)}si(+) 是第 rrr 轮正样本的分数,RRR 是采样轮数。通过多轮采样后的平均分数,可以有效降低单次采样的随机性和噪声。
conclusion:
本文作为一篇异常检测与对比学习的结合论文,实际应用场景在于点与点间存在强联系的场景,且有较为轻易的负样本选择与判定,故可以实现效果,但是如果放在图片异常检测环境中,图片异常不易选择负样本,系统可能无法良好的学习到负样本的标注形式,其次,本文的异常定义也比较宽泛,很可能会吧一些较小概率事件 判定为异常样本。