知物由学 | 行为时序建模在社交引流黑产识别中的应用

网易易盾

已于 2022-06-15 18:59:13 修改

阅读量1.3k

点赞数 4

分类专栏：人工智能业务安全文章标签：网络安全人工智能大数据

于 2022-06-09 17:28:07 首次发布

本文链接：https://blog.csdn.net/yidunmarket/article/details/125206137

版权

业务安全同时被 2 个专栏收录

16 篇文章

订阅专栏

人工智能

7 篇文章

订阅专栏

社交欺诈问题日益凸显

近年来，陌生人社交软件满足了城市青年拓宽社交圈和找陌生人倾诉的需求，但由于其天然的婚恋交友属性，导致成为色情/广告引流、以及杀猪盘/杀鱼盘/杀鸟盘等欺诈类黑产频繁入侵的重灾区。

其中最典型的当属恶意引流。诈骗者通过引流脚本、群控、模拟器、多开软件等软硬件结合，操纵大量垃圾小号在社交平台的私信、个签、评论、发帖等场景进行批量色情/广告引流（如图 1 所示）。

在这里插入图片描述

在成功吸引用户关注后，通过分流等方式将用户拉入私人聊天空间或其他平台，最终以诈骗等形式变现。因此，引流往往是欺诈的前奏。一方面大量的违规内容会影响平台的用户体验，另一方面一旦脱离平台的用户被诈骗成功，也会对平台的口碑和形象造成极大的影响，导致用户流失与流量折损。

技术如何解题？

大数据与人工智能技术的出现为反欺诈提供了解决方案。

当前工业界与学术界的组织推出了基于文字、图像、语音、视频等内容方面的检测 API 以及解决方案，然而，仅内容检测手段极易落入疲于应对的局面。例如，黑灰产通过同音词、象形词、拆字、干扰词等简单的对抗手段即可成为文本违规检测的疑难杂症，增加算法成本。

图像方面，OCR 特征掩盖、图片扭曲、牛皮癣干扰等形式带来的隐晦有害内容也一直屡禁不止，如附骨之疽一般，难以根治。

如背景部分所述，黑灰产通过操纵多个平台账号进行批量的脚本引流，以此达到提高曝光量、恶意引流的目的。由于使用了自动化工具，因此跨账号之间难免会表现出节奏和步调一致的规律，并且这种潜在的隐式关联规律是黑产无法掩饰和伪造的。

图2为正常用户群体（上）和引流黑产团伙（下）分别计算行为时序一阶差分后的序列对比图，从中明显可观察到，正常用户的行为是随机而分散的，而引流黑产的行为却在时间维度上体现出了高度的同步性。

在这里插入图片描述

据此，为了应对黑产欺诈行为的对抗性，我们提出了基于行为时序建模的引流黑产用户识别方法，结合有监督和无监督模型共同构成风控方案，并在实际业务落地中验证了其有效性。相对于纯内容维度的识别算法，该方法优势在于：

账号行为对抗门槛较高，用户的行为习惯、黑产行为协同关系很难在短期内作出改变，从而有效避开与黑产的直接对抗；

恶意引流话术可以在不同的内容模态之间，如文本、图像、语音、视频聊天，进行随意切换和信息传播，以绕过平台限制策略，这给技术段带来的直接压力就是语义理解成本非常高。此时黑产行为信息是更为本质的特征线索，是“万变”中相对不变的因素。

模型设计

异常用户样本初筛

目前，易盾反垃圾日均过检用户量已达到千万级，其中黑产用户的占比不到 1%，全量用户过检会造成模型结果产出的滞后性，为了提升模型过检的效率，需要对异常用户进行初筛。其次，为了避免长度过短无法表征用户整体行为，以及长度不在一个量纲导致数据分布异常引发的误判，在对异常用户初筛前，我们按照行为时序长度对用户进行分组预处理。

直观上，正常用户的行为时间分布较为随机而分散，一阶差分序列也是存在较大的随机性，区分度较低；引流黑产团伙的行为大多是脚本工具生成，所以用户之间的时序周期、量纲和数理统计值（最大值、最小值、均值、标准差等）均存在高相似性，相较于正常用户来说有较高的区分度。

通过上述特征线索，我们采用孤立森林算法从大规模样本空间中分离出和大多数用户行为模式显著不同的离群用户样本，使得后续的算法流程尽可能只聚焦于异常用户群体。相较于 LOF、DBSCAN 等异常检测算法，孤立森林在风控场景具备较好的普适性，主要优势体现在：

a)异常样本的判断基于集成学习（ensemble）的思想获得，算法识别结果较为稳定，不易受到小扰动而造成结果误判，对抗黑产的鲁棒性较强。

b)孤立森林不需要计算有关距离、密度的指标，可大幅度提升速度，减小系统开销；同时，由于每棵树都是独立生成的，因此可部署在大规模分布式系统上来加速运算，满足风险识别的高时效性要求。

图 3 展示了在几款社交头部产品中的应用效果。经 t-SNE 降维后的时序特征可视化效果。由图可见，通过孤立森林识别的异常/正常用户类簇区分度明显，二者不存在交集。同时，不同类簇具有明显的流形结构，具体每个簇代表什么含义我们没有去展开分析，但可以肯定的是簇中的点具有相似的行为模式。由此，我们得到了相较于大盘数据而言，极小比例异常用户，降低了后续模型检测的计算压力，提升在线检测时效性。

在这里插入图片描述

时序频谱特征提取

实际工作中，我们遇到更多的是时序异步相关的问题，而非同步相关性时序，为使得时序特征表达在对抗场景下具有较强的鲁棒性，我们通过傅立叶变换把时序向量变换到频域空间，然后删除在频域空间不重要的分量，因为这些分量往往代表噪声，剩下的分量真正代表了时序向量中关键的信息，只需要用这些关键的浮点数来表示一个行为时序的特征向量就可以了。

图 4 展示了某一黑产团伙发布内容的时序曲线图，其原始时序是呈异步弱相关的，经频谱转换后可发现不同黑产用户之间呈现出高度的行为协同性，因此我们可以在该频谱空间中更好地计算新序列之间相关系数。

在这里插入图片描述

具体来说，如果将用户最近一段时间内的行为轨迹视为信号波，其长度为 N 的时序向量就可视为该信号在连续时域上的等间隔采样，那么相当于我们有了一段有限长的离散时间信号。时序向量中的每个元素就对应离散时间上的信号采样值。

更具体而言，一个时序向量 [x0,x1,x2…,xN-1] 表征了在时刻 0,1,…,N-1 上的信号值，快速傅里叶变换 (FFT) 通过以下核心计算公式将在时域上的离散信号 [x0,x1,x2…,xN-1] 转化为在频域上的一组离散信号 [x0,x1,x2…,xN/2-1] ，作为最终的频谱特征，定义为：

在这里插入图片描述

行为协同团伙挖掘

由于直接对用户间的频域特征计算相似度的时间复杂度较大，所以先采用无监督聚类算法将特征分布相似的用户划分在一个类别内。这里采用 KMeans 聚类算法对频域特征的均值和标准差相似的样本划分在一个类别里，再针对类内样本两两计算频域特征的相似度，作为用户间的关系权重。

由此，我们便构建了以用户为节点的时序协同关系网，在此之上应用 Fast-Unfolding 、Graph-Cut、Fraudar 等图聚类算法进行黑产团伙挖掘是风控业界的共识做法。在用户风险画像从0到1构建初期，我们也遵循该路线，取得了不错的业务效果。图 5 直观地展示了某客户产品线上真实的团伙案例。结合内容本身的有害性可验证这些子图均为非法利益驱动下的恶意引流团伙，且从 IP/GPS/设备等资源属性上可观察到显著的聚集性和复用性。

为降低资源成本，黑产团伙通常会共用硬件设备。为避开易盾反垃圾系统的内容检测模型、专家规则等，他们交替使用了同音词、象形词、拆字、干扰词等形式，构成极其隐晦的引流信息；而通过用户行为大数据分析手段，这批黑产用户在活跃初期被识别出团伙协同后，其账号/IP/设备 ID 会近实时写入用户标签库并生效在线检测，则中后期不管再出现何种变种模式，都能成功拦截，大大降低了攻防压力。

在这里插入图片描述