大数据认知计算在内容安全管控中的应用

7da259a4cd012ac11a87b54c70bf406d.png

点击上方蓝字关注我们

2202429949d5c4ea8f3c024015163300.png

大数据认知计算在内容安全管控中的应用

杜雪涛

中国移动通信集团设计院有限公司,北京 100080

 摘要通信网络中存在海量垃圾和不良信息,这些信息需要被阅读和理解,以便对其进行有效的特征提取和拦截封堵。基于人工分析的方法已经无法达到目的,需要使用基于大数据的认知计算技术代替人工进行海量的数据分析和理解,帮助人们制订内容安全管控策略。针对电信诈骗治理、不良消息治理、变体消息治理和不良网站治理4个方面遇到的实际问题,分别提出了大数据认知计算的解决方案,并给出了创新性实践的效果。实践表明,提出的解决方案能够快速发现不良信息,有效地提升内容管控质量。

关键词 大数据 ; 认知计算 ; 内容安全 ; 诈骗识别

b4d3387fee842830516d999e70c21903.png

论文引用格式:

杜雪涛. 大数据认知计算在内容安全管控中的应用[J]. 大数据, 2021, 7(6): 53-66.

DU X T. Applications of big data cognitive computing in content security governance[J]. Big Data Research, 2021, 7(6): 53-66.

5687ef7b12bcffe9d283c0f06810fa3e.png

1 引言

随着人工智能技术在自然语言处理领域的突破性进展,使用计算机代替人类阅读和理解海量数据,帮助人们进行科学决策和方案制订成为可能。基于大数据的认知计算技术应运而生。随着该技术的不断成熟,其被应用到医疗、法律、教育和金融等多个领域,成为各行业的研究热点。

作为关键信息通信基础设施的运营者和维护者,运营商有义务对通信网络中传播的信息进行内容安全管控。随着信息传输速度日益加快,信息容量越来越大,信息变化速度越来越高,治理压力持续加大。面对海量数据,人工分析方法已经无法应对不良信息的快速演变。因此亟须引入基于大数据分析的认知计算技术,用其代替人工分析,自动总结最新不良信息的规律和知识,帮助内容安全管控人员快速对新型不良信息做出正确有效的响应。

虽然认知计算已经被广泛应用于多个领域,但其与内容安全治理相结合的场景尚不多见。本文讨论的内容安全治理特指不良文本内容。目前通信运营商治理不良文本内容的手段主要分为线上拦截和线下分析两种。在线上拦截中,可以配置关键词组合策略,对发送的不良文本消息进行实时拦截。在线下分析中,可以对海量数据进行大数据分析,最终实现两个目的:第一,发现线上分析无法识别的隐蔽不良文本消息,如诈骗信息与正常通信内容非常接近,很难通过定义关键词进行识别;第二,优化线上的关键词组合策略,发挥线上拦截系统的最大功效,如发现了更加精准高效的关键词,用其替换已有线上关键词。

围绕上述两个目的,本文将大数据认知计算技术创新性地应用到4个场景:诈骗信息识别与易感人群发现、不良关键词知识库构建、垃圾消息变体词自动发现以及不良域名拟态拓展。诈骗信息识别与易感人群发现是为了发现隐蔽诈骗信息,后面3个应用场景都是为了有效地优化线上关键词组合策略。其中,不良关键词知识库构建的目的是优化关键词本身以及关键词之间的布尔逻辑;垃圾消息变体词自动发现的目的是生成变体关键词策略,精准拦截变体垃圾信息;不良网站域名拟态扩展的目的是发现未知不良域名,以便将域名配置为关键词,对包含不良域名的不良文本进行精准拦截。

本文基于自然语言处理与机器学习技术提出了大数据认知计算在这4种内容安全治理问题中的解决方案,并结合案例分析展示了认知计算在内容安全治理中的实践效果。

2 应用场景1——诈骗信息识别与易感人群发现

2.1 问题背景

电信诈骗给用户带来了巨大的经济损失,其中诈骗消息是诈骗分子与受害者建立联系的重要环节。随着电信诈骗黑色产业链逐步成熟,诈骗日趋呈现专业化、精准化、隐蔽化的特点。诈骗分子通过购买黑产数据获得受害者个人信息,并在诈骗过程中准确说出受害者名字,冒充受害者的熟人,从而获得受害者的信任。不同于其他违法类信息,该类信息几乎不使用敏感词,使用文本分类技术很难将其与正常消息进行区分,误判率较高,治理效果不理想。为了实现对该类信息的精准识别,需要使用技术手段对犯罪分子使用各种身份群发信息的行为(以下称为滥用身份行为)进行捕捉。为了实现这一目标,需要使用认知计算技术对海量非结构化信息内容进行精细化语义理解,识别其中的身份信息,并使用机器学习技术推断身份信息的归属。当发现大量身份信息附着在同一个发送者身上时,则该发送者可能是滥用称谓诈骗者。分析滥用称谓诈骗者的诈骗对象,可以得到电信诈骗易感人群。

2.2 基于大数据认知计算的解决方案

如图1所示,在识别滥用身份类诈骗时,首先需要使用命名实体识别技术对消息中的人名、组织机构名称、QQ号、微信号、抖音号等信息进行精准识别。关于命名实体识别的研究成果国内外已有很多,最新的研究成果有基于BERT嵌入、转移学习、自注意力机制等方法。一个命名实体可能代表了一种身份信息。当识别出身份信息后,还需要进一步推断身份信息属于消息发送者还是消息接收者。本文采用基于Transformer的深度神经网络对身份信息的所有者进行推断,从而将不同的身份信息聚合到消息发送者和消息接收者上。选择Transfo

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值