今天分享的数据要素系列深度研究报告:《数据要素专题报告:数字广告数据要素流通保障技术研究报告》。
(报告出品方:中国信息通信研究院泰尔终端实验室)
报告共计:52页
数字广告数据要素流通概述
数据的价值在于充分的流通使用。作为新型生产要素,数据要素 具有独特的技术、经济特征,可重新编程性和场景依赖性、用户体验 性、广泛赋能性等特征使得数字环境下的数据要素流通能够突破传统 时空限制、组织边界束缚与行业壁垒,以多源多模态实时数据的无障 碍流通与价值增值为核心,深刻改变人们的学习工作和生活方式,并 为数字产业化和产业数字化的加速发展奠定基础。当前,数据已被视 为构建现代化产业体系的重要组成部分,有序衔接、高效畅通的数据使用是优化产业结构、发展新质生产力不可或缺的基础要件。麦肯锡全球研究所称,数据流动带来价值已超过全球货物贸易的价值。
发展数字广告是世界性趋势,2021 年,国家统计局在印发的《数 字经济及其核心产业统计分类》中,将数字广告列为数字经济及其核 心产业的统计范畴,标志着数字广告的产业发展已跨越传统广告业而 进入到新的发展阶段。作为全球第二大广告市场,中国数字广告产业 市场规模达到万亿元以上,对于促进消费、扩大就业、开发创意空间、 激发市场活力从而拉动经济高质量增长具有重要的牵引推动作用。
数字广告数据要素流通现状和挑战
数据泄露引发担忧,流通意愿待加强
数据泄露问题已成为全球性难题。据国际数据公司(IDC)预测2025 年全球数据量将高达 175ZB,其中,中国数据总量增速最为迅猛,正以高于全球平均年增长速度 3%的幅度激增,预计 2025 年增至48.6ZB,占全球数据圈的 27.8%,成为全球最大的数据圈。
随之而来的是数据泄露、数据滥用等数据安全事件频发。据《中国政企机构数据安全风险分析报告》个绍,2022 年 1 月至 10 月全球政企机构重大数据安全报道 180 起,其中数据泄露相关安全事件 93 起,比如国内某快递公司 10 亿用户信息发生泄露。
国际上也发生多起严重的信息泄露事件,比如 2018 年 3 月曝光 的剑桥分析事件中,Facebook 泄露 8700 万用户数据,影响美国大选; Uber 泄露全球 3500 万用户、370 万名司机的个人信息。数据一旦被 获取后,用户便失去了对数据的控制权,若个人数据被不法分子获取, 很容易对用户的财产、名誉等造成损失,有甚者更是会对国家安全、 公众利益和组织利益带来重大损害。
数据“孤岛”向“平台”演进,平台互通待加快
数据孤岛指的是数据在不同部门间独立存储和维护,受制于技术阻碍、企业/行业保护机制以及政策法规等因素而形成的不对称、冗余等封闭或半封闭式现象,普遍存在于所有需要进行数据共享和交换的系统之间,涉及不同部门、企业、产业间数据信息能否共享等问题。
近年来,互联网平台方为加强数据安全和保护用户隐私,纷纷推出广告数据平台。一些大型企业更是建立了具有独立存储空间和严格权限管理机制、能为重要数据加密且保证数据不出库等特点的Ads Data Hub; 广告主和中小媒体可依附于上述数据平台进行数据融合流通。数据平台的建立,可保证域内数据安全流通,实现数据可用不可见,有效保障用户隐私,一定程度上缓解了“数据孤岛”现象。
广告标识符策略收紧,演进方案待升级
日益收紧的隐私保护法案及针对互联网巨头的反断调查都让广告界通用的基于标识符的用户追踪方式愈加受到挑战。从全球来看通过唯一标识符开展数字广告业务的趋势也在逐渐收紧,国际上诸如iOS、Android 等主流操作系统平台基于隐私保护方面的合法合规考虑,都在逐渐弱化或取消直接通过唯一标识符来开展广告业务。
2021 年 4 月,随着苹果 ioS 14.5 的上线,苹果公司正式推出APP 追踪透明 (App Tracking Transparency,简称 ATT)功能,该功能可让用户选择是否允许 APP 跟踪用户在其他公司的 APP 和网站上的活动,以便用于广告投放或与数据代理商共享。与此同时,苹果广告标识符 (Identifier ForAdvertising,简称IDFA)获取方式从 opt-out( 手动选择关闭)变为 opt-in ( 手动选择加入 ),用户管理颗粒度从设备变为应用,同时更新 APP Store 政策限制任何第三方标识。在 iOS14发布后,苹果推出了SKAdNetwork2.0 版本,可以解决 IDFA 缺失带来的安装以及之后在 APP 内注册、购买等转化行为,但仍然存在使用场景局限性、归因回传延迟、结果完全依赖苹果提供等问题。
谷歌为了保护用户隐私,在谷歌应用商店 ( Google Play) 的管理中心页面显示将不会再向开发者提供那些不想看个性化广告的用户的广告标识符。与此同时,为提供有效的个性化广告体验,谷歌为Android 引入新的解决方案一一隐私沙盒。隐私沙盒通过限制与第三方共享用户信息,通过 Topics API 技术能够在没有跨应用标识 (包括广告 ID) 的情况下运行,以及通过更加安全的方式来完成应用程序与广告 SDK 的集成。但隐私沙盒技术本身存在一定争议,且利用Topics API 技术进行广告定向投放、广告归因等业务实践效果仍需相关数据予以支持和证明。
隐私计算助力数据流通,落地应用待加深
为做到数据被无障碍使用且能确保数据安全和个人信息不被泄 露,实现“数据可用而不见”,以隐私计算技术为基础的流通方案成 为行业首选探索方向。近年来,媒体、监测公司等企业纷纷入局,投 入资金和人力进行深入探索,市场也陆续推出相关数据流通平台产品。 但由于缺乏统一的标准指导、技术水平良莠不齐,导致平台所提供的 数据流通能力也是参差不齐,体现在业务场景支持、技术方案选择和流通过程中数据保护能力等方面。
行业普遍认可的隐私计算技术,涉及多方计算和通信,需对敏感 数据进行加密和解密操作,数据量庞大且处理速度要求高,伴随的是 计算资源和网络带宽的极大消耗,这一点在大规模广告数据处理中尤 为明显。而在大规模广告数据处理中,为保护数据隐私,需使用特定算法,如同态加密、安全多方计算等,这相对于传统计算方法而言更复杂,易降低算法的运行效率,且需要额外的计算开销,增加了计算时间和资源的消耗。据调研,隐私计算技术目前虽初步形成技术体系, 但在数字广告行业的落地应用中还需进一步强化与发展。
“告知同意”难实施,机制实现待突破
数字广告涉及曝光、点击、归因分析等多个环节,数据需要在多 个机构间进行流转。在法律法规的要求下,用户个人信息不能再随意 流转,必须取得用户的同意并采取合理的安全保护措施。如果每个数 据处理环节都在用户同意的前提下进行,将对广告投放效率效果和用 户体验带来影响。告知同意机制偏重于数据收集环节,难以满足后续 数据处理的发展要求。在广告行业,数据持有方既难以在数据收集时要求用户给予广泛的授权,也难以在数据流通过程中获得用户的二次授权。此时,不仅告知同意的难度加大、成本上升,强调告知同意还 可能会影响数字广告产业的发展。
透明和同意框架(Transparency and Consent Framework,TCF)是 行业为遵从 GDPR 而制定的传达程序化同意信号的机制,由欧洲互 联网广告局(IAB Europe)和互动广告局技术实验室(IAB Tech Lab) 在 2018 年 8 月联合推出。2019 年 8 月 21 日推出 TCF 2.0 版本,持 续深化 TCF 的总体推动力,涵盖消费者授予或拒绝同意的权利,以 及行使反对处理其数据的权利,消费者还可以更好地控制广告技术供 应商是否以及如何使用精确地理定位等数据处理的某些功能。IAB 的 会员可使用这一框架允许合作伙伴为了广告和其他目的合法收集和 处理数据。但是,为满足 GDPR 的要求而设计的这一技术框架,在 2022 年还是被欧盟监管方按照 GDPR 进行了处罚。
目前在我国,仅有少数有海外广告业务的国内厂商加入 TCF 框 架,但大部分仍处于研究和观望阶段,类似 TCF 同意管理框架是否 符合我国法律法规还有待商榷,国内尚未形成统一的框架体系和同意管理平台。
数字广告数据要素流通保障技术
保障技术主要分为两类:匿名化技术,例如假名化、泛化、加噪、 受控匿名化;隐私计算技术,例如可信执行环境、多方安全计算、联邦学习、可信密态计算。
隐私计算技术能够在保证数据不对外泄露的前提下完成计算,所 以,它可以很好地保证数据方的数据利益,这一点是匿名化技术不具 备的。此外,在(高安全的)隐私计算过程中,数据的暴露范围并没 有扩大。也就是说,“个人隐私信息原来由哪一方持有,还是哪一方 持有”,个人隐私信息暴露的范围并没有扩大,因此,隐私计算技术 也是个人隐私信息保护的有效手段。实际应用中,隐私计算技术还可以与差分隐私等技术联合,避免从结果中泄露个人隐私。
除了匿名化、隐私计算之外,一些简单的数据裁剪也能达到很好的个人隐私保护效果,比如只传递身份 ID 或者只传递属性信息。前者只泄露了某个人参与了某项事情,在该项事情不具备敏感性的时候对个人隐私的侵犯很小;后者再结合前述的匿名化方法后,反推出个人身份的难度较大。但这些方式具有一定的局限性,只适用于部分场景。
可信密态计算
可信密态计算 (Trusted-Environment-based Cryptographic Computing,简称 TECC)是指将数据以密态形式在高速互联的可信节 点集群中进行计算、存储和流转的一种可信隐私计算技术。可信密态 计算既能够抵御常见的安全隐患又能够快速处理大规模数据。具体表 现在,它能够缓解供应链攻击、系统漏洞等常见的硬件安全隐患,以及抵御合谋攻击、恶意敌手攻击等常见的密码协议攻击。同时,它不受公网传输瓶颈和复杂的密码计算拖累,没有显著的性能瓶颈。
报告共计:52页