深度学习已经在各个领域取得了巨大的成功,诸如图像分类、语音识别、自然语言处理等。训练一个性能好的深度学习模型往往需要大量的高质量数据和昂贵的计算资源。然而,这些模型存在着严重的被侵权的风险。攻击者可通过白盒攻击或黑盒攻击的方式,获得一个与被攻击模型性能相近的替代模型。《SFFAI63期-图像处理专场》我们邀请到了来自中科大的张杰同学,分享他在解决此类问题时提出的用于保护图像处理网络的模型水印框架。
关注文章公众号
回复"SFFAI63"获取PPT资料
视频资料可点击下方阅读原文在线观看
作者介绍
张杰,中国科学技术大学网络空间安全学院在读博士,导师俞能海教授。主要研究方向:人工智能安全,深度学习模型的版权保护(即模型水印)。
张杰
大家好,首先感谢SSFAI的邀请,在疫情期间提供了这个和大家分享交流的机会。今天我要给大家分享的工作是针对图像处理网络的模型水印,这里也要感谢一下参与这份工作的同学和老师们。
今天的分享将就以下几个方面进行展开:
研究背景
动机
方法
实验
总结
一
研究背景
近些年,深度学习研究却得了越来越多的进展,深度学习模型在各个领域得到了广泛的应用,以下列举了常用的训练模型以及商用的途径。
如图1左面的图所示,对于计算资源有限的公司,他们往往把模型和数据上传到云端进行训练,再从云端下载训练好的模型。
图1
而在商用阶段,对于训练好的模型,为了保护他的知识产权,大多数公司会以API这种黑盒的形式来提供服务。
但是不管是训练还是商用阶段,这些模型都存在着被侵权的风险。
如图2第一种情况,如果攻击者掌握到了模型的结构以及参数信息,可以通过fine-tune或者剪枝得到新的模型,这样原有模型的版权就受到了侵害。
图2
即使是第二种黑盒的情况,攻击者通过对API不断的访问,得到相应的输出,把这些输出当做真实标签,在数据量充足的情况下,通过有监督学习可以学到一个性能近似的替代模型,取得和原有深度模型相似的结果,使原有模型的版权受到侵害。我们把这种攻击叫做模型替代攻击。
对于传统的这种音视频和图片的版权保护,我们常用的方法是添加水印。
相比而言,基于深度学习的模型是一种新型的载体,如何对其添加水印,保护她的版权,是一个值得研究的方向。
图3
下面,我将先介绍该领域几篇具有代表性的文章。
深度学习模型版权保护的第一篇工作来自 Japan KDDI 的研究团队。他将网络的权值作为载体,将版权信息嵌入权值矩阵中。
大致流程:
首先将权值矩阵展开成一维向量 S:kernel size,D:卷积层深度 L:卷积核个数。
目标:将T-bit向量b(水印信息) 嵌入到 权值矩阵W。
为原损失函数,为正则化项,其中,正则化项将参数w调制到一个特定的分布,作为训练过程中的水印。
X是事先设定的映射矩阵,将W映射到b。
图4是文中三种X的设计方法对应的W分布情况,可知以上三种方法均可提出水印。
图4
图5是展示了嵌入水印后对模型训练参数W分布的影响,由试验结果可知,随机方法选择的X效果最佳。
图5
图6是模型对剪枝的鲁棒性分析,表1是fine-tuning的鲁棒性分析。