AI_Security | 眼见未必为实：警惕AI时代的新诈骗

本文链接：https://blog.csdn.net/windhawk_fly/article/details/130981597

文章讲述了近期一起利用AI技术实施的电信诈骗案件，诈骗分子通过AI换脸和声音合成本地好友身份，骗取巨额资金。深度伪造技术包括视频伪造和语音伪造，涉及图像处理、语音合成等。对此，国家层面正逐步出台相关法规进行规范，社会层面也在研发检测技术对抗伪造内容，而个人需要提高安全意识，采取防范措施避免成为诈骗受害者。

摘要由CSDN通过智能技术生成

01 | 轰动的电信诈骗案

某日，G先生突然接到好友的微信视频，对方表示正在外地竞标，亟需430万元保证金；基于对好友的信任，加之已经通过视频聊天核实了身份，G先生爽快地分两笔把430万元转到了好友朋友的银行卡。钱款转账完成后，G先生给好友微信发信息表示“事情已经办妥”，但是他万万没想到的是，好友回过来的竟然是一个大大的问号！G先生才意识到情况不对，随即报警。

这并非影视剧集中的假想场景，而是近日包头警方发布的一起利用AI技术实施电信诈骗的典型案例。诈骗分子盗取了G先生好友的微信号，并采用AI换脸和声音合成技术故意与G先生微信视频以获取信任。所幸公安电信网络犯罪侦查部门及时行动，联合相关银行将诈骗账户内的336万余元被骗资金成功拦截，剩余款项警方正在全力追缴中。

02 | 深度伪造技术

上述电信诈骗案例中的“AI换脸”与“声音合成”技术均属于深度伪造技术。深度伪造技术泛指基于深度学习等机器学习算法，创建或合成图像、视频、音频、文本等内容的技术，常见的深度伪造技术主要存在于视频伪造和语音伪造两类领域。

视觉内容伪造通常指生成虚假图片或视频内容，最常见的就是“AI换脸”。根据换脸时的要求不同，又可以分为表情迁移和人脸替换两类。

表情迁移仅仅将目标人物的表情替换为原始人物的表情，并没有进行人脸面部特征的替换。如2016年提出的一种名为Face2Face的表情迁移方法，该方法借助Dlib首先对图片中的人脸进行检测，找到人脸上的关键标记点，然后使用针对人脸的pix2pix转换模型把关键标记点转换为目标人脸图像，实现了从源视频到目标视频的实时且高度逼真的面部表情迁移。如下图中的示例，通过对源视频人脸关键点的捕捉分析定位，将表情迁移到目标人脸上，使得“小布什面露微笑”。

不同于表情迁移，人脸替换还要进一步将目标人物的面部与原始人物进行替换，从而完全修改目标人物的面部特征。早期的方法基于图形学人脸篡改技术，利用3D建模和图像处理算法将源人物的人脸融合覆盖到目标人脸。如GitHub中的FaceSwap项目使用人脸分割算法对人脸区域进行了适当分割，并通过3D模型对人脸关键点进行建模，最后在分割后的人脸区域上进行融合操作。

人脸融合

基于人脸融合的换脸方法只需要一张替换目标的人脸照片即可，但针对人脸角度变化较大的场景往往合成效果较差。因此可以将深度学习技术应用到人脸生成中，如采用自动编码器（AutoEncoder）的Deepfakes换脸网络。Deepfakes换脸网络的基本思想是训练时共享一个编码器，分别独立训练两个解码器；实际换脸时则输入原始图像编码，使用目标图像的解码器解码。

语音内容伪造主要指生成虚假的语音内容。一般有三个层次的任务：

文本到语音合成（TextToSpeech, TTS），即根据指定文本内容来合成带有既定文本内容的语音文件
语音转换（Voice Conversion），即将原始人物的音色转换为目标人物的音色
语音克隆（Voice Cloning），即根据少量目标人物的音频内容，去模拟目标人物的音色，合成具有目标人物音色和指定内容的语音文件

最近大火的“AI孙燕姿”就是语音克隆技术的典型应用，如个人觉得不错的抖音平台上一个不错的AI虚拟歌姬账号，不仅音色上真假难辨，而且虚拟歌姬表情仪态自然美好。

AI孙燕姿虚拟歌姬

03 | 深度伪造技术带来的AI应用风险

事实上，深度伪造技术并不是一门新技术。过去所谓的“AI换脸”需要专业的剪辑师和CGI专家一起合作耗费大量时间精力，因此多见于大片剧集中，如《速度与激情7》中借助AI换脸技术“复活”了男主，帮助在车祸中去世的保罗沃克完成电影的最后一幕，给了影迷安慰和温暖。

“复活”的保罗沃克

然而随着个人计算设备算力的提升和深度伪造技术的发展，其使用门槛越来越低，如今只需要在一台个人笔记本上，使用CPU和入门级的显卡即可运行AI换脸网络；如果想在个人PC上实现微信视频实时换脸，也不算难事，只需要借助OBS Studio软件实时捕获原始的微信视频，然后将AI换脸后的视频流发送给微信视频端口即可。

现实中电信诈骗分子常借助AI技术合成语音或AI换脸以获取目标信任。对于第一类诈骗场景，诈骗分子通常拨打骚扰电话录音的方式获取目标人物声音，将其当做原始素材进行声音合成，进而使用伪造的声音骗过对方。对于第二类诈骗场景，诈骗分子通常会先使用社会工程学等方式获取目标人物的人脸图片或社交状态视频，进而借助AI技术换脸，通过视频方式进行信息确认获取对方信任，可谓防不胜防。

AI诈骗路线

04 | AI诈骗应对百宝箱

AI技术本身不具有黑白，好坏与否关键掌握在使用AI的人手中。因此AI技术就像一把“双刃剑”，赋能千行百业的同时，也带来了更严峻的电信诈骗风险。

电信诈骗风险防范治理并非一人一日之功，需国家、社会及个人等各个层次合作发力，久久为功。

041 | 国家层面

AI诈骗的防范治理离不开司法规范与指导。国内外管理者均提出可以从源头分析区分真实内容和伪造内容。

我国《数据安全管理办法（征求意见稿）》中第24条明确提出“网络运营者利用大数据、人工智能等技术自动合成新闻、博文、帖子、评论等信息，应以明显方式标明’合成’字样”。

今年4月份，我国网信办出台《生成式人工智能服务管理办法（征求意见稿）》并公开征求意见。尽管国内大模型研究和商业应用仍处于发展初期，但监管立法来得很快，对比全球政府的监管行动，我国无疑走在了前面。

美国《深度伪造责任法案》规定，利用深度伪造技术合成虚假内容放置于网上传播的，制作者应当采用嵌入数字水印、文字、语音表示等方式披露合成信息。

042 | 社会层次

社会层次要鼓励产学研跨界合作，积极研究探索AI诈骗方法技术方案。

当前针对视觉伪造的检测主要包含技术检测与对抗防御两个维度，其中技术检测是指基于深度学习模型来检测图像或品势是否为生成的伪造内容，根据鉴别维度或挑选特征的不同，又可以细分为基于图像篡改痕迹、数据驱动以及生理特征的方法，本质上是事后通过技术手段对视觉内容进行真伪检测。

如基于图像篡改痕迹的方法中，由于图像数据点随机插值，因此可以检查全局眼睛颜色是否一致；由于光照不一致导致篡改区域和正常区域对于光照反射不同；牙齿部分生成比较模糊，通常是一些白色斑点等。

在这里插入图片描述

基于生理特征的深度伪造检测技术则是重点关注视频中人物的生理特征，如AI换脸中的图片素材多是静态照片，因此难以模拟真实的眨眼活动，从而可以通过关注分析视频人物的眨眼模式判断是否是AI伪造。

除了学术界研究伪造内容检测技术外，产业界也采取了多种措施应对AIGC的伪造风险。如Facebook、Amazon和Microsoft联合学术界发起了DeepFake Detection Challenge（DFDC）挑战赛，悬赏深度伪造视频的最佳检测方案；又如Facebook对虚假生成视频进行特殊标注，使用四种方法来屏蔽虚假信息和仇恨言论，以减缓它们在社交网络上的传播速度；谷歌开源了包含3000个AI生成的虚假伪造视频数据集，助力打造深度伪造行为；GitHub封杀了Deepfakes和DeepNude等深度伪造应用项目下载，控制其传播。

043 | 对个人的建议

对于个人而言，最重要的无疑是提升安全意识，永远保持防范之心。希望大家可以铭记以下“防范诈骗小贴士”：

凡是涉及到资金转账交易时，务必立即打起“120分”精神！务必通过电话、视频等方式确认对方是否是本人，为了应对语音合成或AI换脸的诈骗风险，还可以就双方都熟知的信息提问，如“你手头的XX项目进展如何？”
一旦决定转账，请务必牢记：一是将钱款转到对方名下的银行账户，而非第三方账户，以便于后续跟进银行转账信息；二是选择“2小时到账”或“24小时到账”，越是紧急的转账请求，越需要保持提醒，因为诈骗分子通常会设定“剧本”基于转账压力，不给我们核实思考时间！
加强个人信息保护，尤其是个人自媒体盛行的今天，一条朋友圈状态、一条抖音热门，就有可能暴露我们的语音数据、人脸数据等
对于不明平台发来的广告、中奖、交友等链接提高警惕，不随意填写个人信息，以免被骗子“精准围猎”
做好家中老人的宣传防范工作，提醒家中老人在接到“自己”电话、短信、微信、语音甚至视频通话时，要再次拨打电话向家人确认，千万不要贸然转账

只要我们始终保持安全警惕，就会极大降低被电信诈骗的风险，不给诈骗分子任何可乘之机！