内容安全
文章平均质量分 85
网易易盾
网易易盾是网易数智旗下一站式数字内容风控品牌,依托网易 26年的先进技术沉淀和一线实践经验,作为国内领先的数字内容风控服务商,为面向数字化业务的客户提供专业可靠的安全服务,涵盖内容安全、业务安全、应用安全、安全专家服务四大领域,全方位保障客户业务合规、稳健和安全运营。
展开
-
知物由学 | 多级建模方法提升汉语语音识别效果,获ISCSLP大赛认可
具体地,多级建模方法基于 Encoder-Decoder 的架构,使用多任务学习 hybrid CTC/Attention[1] 方式进行训练,其中 CTC 分支使用音节作为建模单元,使得模型可以学习到从语音特征序列到音节序列的映射信息,而 Attention 分支使用汉字作为建模单元,利用序列上下文信息和声学特征将音节转换为最终输出的汉字。下图展示了我们的多级建模系统架构。在本文中,我们提出了一种多级建模单元的端到端汉语语音识别方法,通过多级建模的方式,模型可以融合学习多级信息。2.为什么要用多级建模?原创 2023-01-12 15:15:30 · 740 阅读 · 0 评论 -
NLP 模型“解语如神”的诀窍:在文本分类模型中注入外部词典
一方面能显著提升模型的召回能力,减少业务漏判,另一方面,在中文互联网这个黑话频出的环境,可以在不更新模型的前提下让应用系统适应外部语言环境的变化发展。原创 2022-12-13 17:42:07 · 862 阅读 · 0 评论 -
知物由学 | 垃圾内容肆虐,自监督学习助力“内容风控”效果提升
在深度学习领域中,研究人员发现,有监督学习存在标注难度高的问题,尤其是在内容业务端的风控过程中数据“大爆发”。因此,自监督学习的相关研究在近年蓬勃发展起来,达到并超越了有监督学习。通过借助无标签数据与无监督训练任务,自监督学习可有效改善传统有监督算法中“泛化性能不足”、“模型过拟合”、“严重依赖数据标注质量”等问题。那么,如何开展自监督学习?文章对自监督学习的方法做了超详细的解读,展示了SimCLR、Moco、BYOL三个方向,并介绍了各自的优势和应用场景。快来学习与分享吧。...原创 2022-07-01 14:17:48 · 416 阅读 · 0 评论 -
MCtalk创业声音丨博学明辨:兴趣社交,给退休前后老年朋友的「小而美」空间
每个时代都有属于自己的旋律,而创新与创业是时代更迭中不变的主题。从工业时代、信息时代,再到智能时代,从不缺少勇敢奋进的开拓者们,有人顺势而起,有人败兴而归,有人错过一个风口后依然满怀期待地等待下一个。他们的阅历越来越丰富、知识越来越渊博、意志越来越坚韧,获得了全方位的淬炼。《MCtalk创业声音》是网易智企推出的全新栏目,旨在关注各行各业变革、聚焦创新创业领袖。通过对话明星创业者,分享他们的创业故事和对行业的真知灼见。这是《MCtalk 创业声音》的第05期老年人陷入孤独的根源大多在于某种形原创 2022-05-26 11:35:02 · 385 阅读 · 0 评论 -
知识蒸馏如何快速提升人工智能模型的性能?
本文主要介绍知识蒸馏领域的两种经典算法,一篇是基于输出 logits 的知识蒸馏工作 KD [2],一篇是基于 CNN 的中间层特征的知识蒸馏工作 FitNet [4]原创 2022-05-19 11:04:52 · 404 阅读 · 0 评论 -
知物由学 | 弱监督语义分割:从图像级标注快进到像素级预测
语义分割,旨在将图像中的所有像素进行分类,一直是计算机视觉图像领域的主要任务之一。在实际应用中,由于能准确地定位到物体所在区域并以像素级的精度排除掉背景的影响,一直是精细化识别、图像理解的可靠方式。原创 2022-03-30 16:13:31 · 10237 阅读 · 1 评论 -
知物由学 | “找茬”不如交给AI算法,细说文本纠错的多种实现途径
顾名思义,文本纠错就是将文本中有错误的地方进行纠正,错误类型包含错别字、缺失字、冗余字、词语搭配错误和语法错误等。目前也有一些开源的文本纠错工具,比如pycorrector等,虽然这些工具可以满足一部分场景中的文本纠错需求,但其效果距离真正应用还有较大的差距,所以十分有必要自行上手构建一个文本纠错系统。近年来,错别字连篇的法律文件、写错国家机构的新闻报道、国名有误的发布会现场,无不成为网友热议的对象。为何低级错误无人发现?为何专业人士竟在文字上遭遇“滑铁卢”?一连串的质疑也说明,文本纠错是内容安全的首当其原创 2021-12-28 13:56:57 · 3035 阅读 · 0 评论 -
知物由学 | 易盾SaaS系统资损防控体系建设
背景易盾业务主要分内容安全、业务安全和移动安全三部分,内容安全主要给客户提供反垃圾机器检测能力,文本、图片和音视频。并和人工审核、SAAS审核系统组合成全家桶。业务安全主要是提供认证类的服务,包括验证码,号码日志,信息认证。移动安全是通过加固和其他手段保护客户的应用,防止被逆向破解。结算业务是易盾最重要的基础服务,承担着易盾的资金管理工作,随着易盾用户量的高速增长,结算业务承担的责任越重,风险也越大。自然而然,对于我们测试同学也提出更高的要求。在我们搭建这套体系前,回归手段比较传统,自动化用例维护成本较原创 2021-12-27 17:11:30 · 884 阅读 · 0 评论 -
【语音之家】AI产业沙龙—— 网易语音AI技术:从内容安全到内容品质
由CCF语音对话与听觉专委会、中国人工智能产业发展联盟(AIIA)评估组、网易易盾、语音之家、北京希尔贝壳科技有限公司共同举办的【语音之家】AI产业沙龙–网易语音AI技术:从内容安全到内容品质,将于2021年12月8日19:00-21:30通过语音之家微信视频号直播。沙龙简介智能语音技术在网易的应用方式丰富多样,借助多场景下的海量数据,衍生出众多技术驱动的应用场景,从内容安全保障,到内容质量挖掘,让用户在内容海洋中尽情遨游。网易易盾团队通过语音关键词识别和语义理解,助力平台更快、更好、更低成本地筛选出.原创 2021-12-10 11:26:33 · 5521 阅读 · 0 评论 -
知物由学 | 听声辨人,看声纹识别技术如何保障内容安全?
大家对“指纹”并不陌生,但听说过“声纹”吗?“违法犯罪变得越来越困难了。如今罪犯都没法使用电话了,因为侦探们可以通过他们在话筒上留下的声纹来追踪他。”一则刊登在1918年10月的《田纳西人日报》中的笑话首次提及“声纹”,并将其比作“指纹”,能用来定位到具体的犯人,帮助警方刑侦调查。后来玩笑逐渐变成了现实,虽然声音所过之处并不会留下任何痕迹,但是声音本身却蕴藏着身份的蛛丝马迹。与“指纹”一样,每个人拥有独一无二的“声纹”。随着深度学习时代的到来,声纹识别领域自然而然地形成了“百家争鸣”的局面,许多实际应原创 2021-12-09 11:01:33 · 6139 阅读 · 0 评论 -
知物由学 | Windows反外挂的数据对抗
只要你在电脑上玩过游戏,那你或多或少都听过甚至遇到过游戏中的“战神”——即那些开挂的恶劣用户,他们不仅让游戏失去公平,影响了他人的游戏体验,还使游戏本身失去了乐趣。既然外挂破坏了游戏生态,Windows系统是怎样防止外挂的呢?一、前言由于Windows操作系统进程间相对开放,不具有类似移动平台的进程沙箱隔离机制,因此无论是外挂的种类、实现方式,还是打击外挂的手段,都会相对复杂一些。细化地说,像一些常见的杀毒软件、输入法、直播推流软件均存在对外部进程的访问、数据读取甚至是内存修改的行为,若是强行将所有Ho原创 2021-11-26 15:39:59 · 6545 阅读 · 9 评论 -
知物由学 | 图像检索技术怎样准如“雷达”,从一张到亿张精准定位图片违规?
在Web2.0的时代下,图像、视频等各类异构数据每天都在以惊人的速度增长。如何在茫茫图库中方便、快速、准确地找到所需图像?你是否还在为如何检索到真正想要获取的图像的关键字而苦苦烦恼?你是否发现目前基于文本描述的图像搜索结果在大规模图像中结果往往差强人意?追根溯源,这是由于基于文本的图像检索在外来的图像入库时离不开人工的干预。文本描述的特征依赖于人工标注的介入,导致图库受到标注者的认知水平、言语使用以及主观判断等的影响,造成图像的文字描述存在差异。同时,标注费时费力,这类方法并不适用于海量图像库的检索。针原创 2021-11-09 10:11:43 · 653 阅读 · 0 评论 -
知物由学 | 一种新型自研白盒密钥算法,让攻击者无迹可寻
知物由学 | 一种新型自研白盒密钥算法,让攻击者无迹可寻随着信息化的发展,数据安全显得越来越重要,因此对数据的存储和传输进行加密操作逐渐进入大众视线。数据加密的过程中必然涉及由一系列参数组成的密钥,而密钥正是攻击者所垂涎的目标,这是由于相比于破解加密算法,盗取密匙要来得更为容易,也是直通数据“仓库”的捷径之一。因此,密钥安全称之为“数据安全的基础”也不为过,尤其是在不可信的移动端环境中,常见的有获取了最高权限的 Android、iOS 设备。 本文基于移动端密钥使用和存储的痛点,介绍了一种自研的白盒加密原创 2021-10-11 15:05:45 · 1223 阅读 · 0 评论 -
知物由学 | 驱动反外挂另辟蹊径,让游戏避免看不见的漏洞攻击
工欲善其事,必先利其器。游戏攻防对抗亦是如此,外挂作者通过各种工具提升游戏破解效率,通常防御方会根据其工具特性针对性防御。此种场景下的防御似乎总是后人一步。难道就没有好的办法了吗?为了解决这个痛点,通过对市面上外挂作者攻击手法分析,发现无论哪种类型的工具、外挂都离不开对游戏信息的获取。而驱动反外挂正好将此处破绽给防御住。01 对抗场景通常,一般反外挂产品会启动基于钩子扫描、可疑模块/进程扫描、文件/代码块签名、加壳混淆、关键字扫描、调试状态等特性。以保护游戏或检测计算机内存和进程中可能存在的作弊行.原创 2021-10-11 11:37:57 · 2424 阅读 · 1 评论 -
知物由学 | 告别挑花眼,AI算法如何筛选低质量图片?
知物由学 | 告别挑花眼,AI算法如何筛选低质量图片?随着手机相机的升级,随手拿出手机拍照已经成为很多人不经意的日常,手机相册、电脑硬盘中存储的照片数量或许早已悄然过万。各类社交平台上,每一秒都有数不胜数的图片被上传和分享。那么,如何才能轻松筛除手机相册中低质量的照片?如何才能从社交平台上的海量数据中挑选出高质量的图片用于首页展示和推荐?如何才能预先过滤低质量的图片以提高后续内容审核模型的效率……在面对这些难题时,图像质量评估算法体现出了极大的应用价值。背景介绍图像质量是一个宽泛的概念,在不同场景下原创 2021-10-08 10:24:59 · 1827 阅读 · 1 评论 -
知物由学 | 再造巴别塔,我们如何进行NLP跨语言知识迁移?
知物由学 | 再造巴别塔,我们如何进行NLP跨语言知识迁移?自以 BERT 为代表的预训练语言模型诞生起,关于其跨语言版本的探索研究就从未停止过。2020 年 4 月,Google 发布了 XTREME 基准,迅速成为跨语言预训练模型的黄金评测集。XTREME 包含文本分类、序列标注、句子召回、问答四个大类共九个子任务,参评模型需要在英文训练数据上进行调优,然后在其他 12 个语系的 40 种语言的各自测试集上进行推理预测。得分越高,意味着模型能更好地将从优势语种(英文)中学习到的知识,迁移到小语种应原创 2021-09-28 15:09:24 · 780 阅读 · 0 评论 -
知物由学 | 易盾自研文本实时聚类技术,一网打尽社交网络中的同类有害内容
知物由学 | 易盾自研文本实时聚类技术,一网打尽社交网络中的同类有害内容实际业务场景中,每天文本内容的数据量都在亿级以上,为了更高效地处理如此海量的数据,文本聚类技术的运用是必不可少的。所谓文本聚类,指的是将文本按照类别进行聚合,然后以类别为单位对文本进行处理或使用。文本聚类之所以能够对文本按照类别进行聚类,主要是基于一个聚类假设:同类的文本相似度较大,而不同类的文本相似度较小。从上述文本聚类的定义看,文本聚类似乎与文本分类做的事情差不多,它们有什么不同吗?与文本分类相比,文本聚类是一个无监督的算法原创 2021-09-27 16:13:37 · 450 阅读 · 0 评论 -
知物由学 | 易盾移动端同构实践,几步改善官网交互体验
易盾移动端同构实践,几步改善官网交互体验背景为了首屏渲染更快,让用户更快看到内容,网易易盾开启了移动端官网同构建设,即一套代码两端运行, 客户端代码直接运行在服务端, 无需编写冗余的渲染视图。改造前,官网项目的技术栈较大众,以 egg.js 为后端框架,Nunjuck 为模板,前端采用 jQuery。本次则采用Vue 作为前端框架进行了部分改进,团队成员的技术储备也基本上建立在 Vue 的技术体系上,从以下3方面出发,重整技术选型,全面改善易盾的官网生态。统一技术栈:Nunjuck 模板很强大,原创 2021-08-06 17:33:55 · 346 阅读 · 0 评论 -
知物由学 | 机器聪明过人,“半监督”与“自监督”结合让AI模型训练事半功倍
购物网站为消费者推荐心仪的产品,导航为司机选择最佳路径,设备通过用户的生物特征鉴定身份,智能投资顾问监测、制定、投资复杂的金融产品组合……目前,深度学习,尤其是有监督训练,已经广泛应用于各行业中。在各位AI训练师的精心训(调)练(参)下,计算机更“懂”人类,而AI训练师也面临一些成长的烦恼:“找数据、提标注、做筛选、训网络”的流程是否已成为日常工作中的常规操作?“泛化性能不足”、“模型过拟合”等问题是否频繁影响着模型效果?当通过添加更多标注数据来解决上述问题时,花费高昂、耗时漫长的数据标注过程,是原创 2021-06-24 14:06:33 · 1127 阅读 · 0 评论 -
知物由学 | SDK API自动化测试与持续集成
自打我接触测试以来,就独得各类SDK恩宠,那么SDK是什么呢?由以下SDK逻辑构图可知,它是一种内嵌入各种APP或者Web应用,为第三方开发者提供软件服务的开发工具包,包括SDK接口、开发文档和Demo示例等。于是秉着和用户在一起的宗旨,保障SDK这些内容的质量便成为了QA的工作日常。其中,Demo是SDK提供方用来示例如何调用接口实现具体功能的工具,可以帮助第三方开发者直观感受SDK的接入效果;QA在测试时也可以借助Demo,采用手工或UI自动化的方式快速有效的覆盖SDK的主流接口和业务场景,但这种方.原创 2021-06-18 14:35:37 · 992 阅读 · 1 评论 -
知物由学 | “聊骚”屡禁不止,深度学习技术如何对抗语音色情?
在互联网时代,每天各式各样的信息充斥着我们的视野。根据信息的载体不同,我们可以将信息分为文本信息、图片信息、视频信息和音频信息等。内容审核,就是需要对文本、图片、视频和音频等内容进行审核,给各类违禁内容贴上标签并拦截。违禁内容涉及的领域比较宽泛,如色情、暴力、涉政、恐怖等。人工智能是一项能让机器像人类一样思考和判断的技术。深度学习作为人工智能领域的一个分支,受到了学者和工业界广泛的关注。本文主要介绍基于深度学习的色情语音和ASMR 语音的识别技术。01 问题描述根据业务需求,色情语音和 ASM.原创 2021-02-19 19:10:13 · 11229 阅读 · 15 评论 -
1月第3周易盾业务风控关注 | 2020年全国受理网络违法和不良信息举报1.63亿件
易盾业务风控周报每周报道值得关注的安全技术和事件,包括但不限于内容安全、移动安全、业务安全和网络安全,帮助企业提高警惕,规避这些似小实大、影响业务健康发展的安全风险。01政策监管观察【《中国银保监会监管数据安全管理办法(试行)》发布】为切实加强监管数据安全管理,防范监管数据安全风险,银保监会制定了《中国银保监会监管数据安全管理办法(试行)》,现予以印发,请遵照执行。02国内安全盘点【工信部下架12款侵害用户权益App 陪你、桔多多等在列】2020年12月21日,工信部向社会通报了63家存在侵原创 2021-02-19 19:08:17 · 8813 阅读 · 0 评论 -
知物由学 | 更适合文本分类的轻量级预训练模型
自 BERT 起,预训练语言模型沿着海量训练数据和庞大网络结构的方向在不断发展着。在12月落幕的 NeurIPS 2020 会议上,语言模型 GPT-3 荣膺最佳论文奖。OpenAI 的研究人员使用了多达 45TB 的文本数据来训练它的 1750 亿个参数。GPT-3 不仅仅是“变得更大”,它用“Few-Shot”学习替代了 FineTune,能够出色完成代码生成、领域问答、吉他谱曲等高难度的复合型 NLP 任务。那么,在相反的道路上,当数据受限并且算力不足,是否有轻量级的预训练模型能够帮助我们更好地处原创 2021-01-26 19:29:40 · 8880 阅读 · 0 评论 -
1月第1周易盾业务风控关注 | 网信办就《互联网信息服务管理办法》公开征求意见
易盾业务风控周报每周报道值得关注的安全技术和事件,包括但不限于内容安全、移动安全、业务安全和网络安全,帮助企业提高警惕,规避这些似小实大、影响业务健康发展的安全风险。01政策监管观察【《互联网信息服务管理办法》再修订,对外公开征求意见】1月8日,国家网信办官网正式发布关于《互联网信息服务管理办法(修订草案征求意见稿)》公开征求意见的通知。意见稿分6章54条,对信息发布及信息安全有了新要求,例如提出“建立信息发布审核制度”“ 建立网络信息安全投诉、举报制度”等。【中消协:加强算法规则,保障消费公平原创 2021-01-19 19:04:14 · 8737 阅读 · 0 评论 -
1月第2周易盾业务风控关注 | 国家网信办发布2020治理行动盘点
易盾业务风控周报每周报道值得关注的安全技术和事件,包括但不限于内容安全、移动安全、业务安全和网络安全,帮助企业提高警惕,规避这些似小实大、影响业务健康发展的安全风险。01 政策监管观察【银保监会发布监管办法以推进信息化建设】1月12日,银保监会网站发布《保险中介机构信息化工作监管办法》,对保险中介机构信息化工作提出全面要求。共总则、基本要求、信息系统、信息安全、监督管理、附则等6章36条。《办法》自2021年2月1日起施行。02 国内安全盘点【国家网信办发布2020治理行动盘点】2020年,原创 2021-01-19 19:03:34 · 8756 阅读 · 0 评论 -
知物由学 | 舆情数据清洗“动”“静”分离方案
易盾数字内容风控时刻关注最新舆情,覆盖全网资讯数据。然而,原始数据格式各式各样,舆情监测平台如何将海量原始数据转换为统一的数据格式成为数据处理前置条件。舆情数据清洗主要面临如下几个难点:○全网数据格式多种多样,如何快速相应新数据接入,同时不影响架构的“开闭原则”?○如何协调爬虫、ETL、研发三方的协作与数据流通?○如何让数据清洗满足灵活性的同时,保证其清洗性能?01 业务架构上“动”、“静”分离基于上述分析,我们仔细分析整个数据处理链中的各环节,挖掘出各模块的处理逻辑本质,进行动静分原创 2021-01-15 09:44:49 · 8659 阅读 · 0 评论 -
如何对il2cpp进行加固保护?
Unity3D是一款非常出名的游戏引擎,许多知名游戏就是基于该引擎进行开发的。它最大的一个特点是一次制作,多平台部署,而这一核心功能是靠Mono实现的。可以说Mono是Unity3D核心的核心,是Unity3D跨平台的根本。但是在2015年发布Unity5的时候,Unity3D官方推出了il2cpp。根据Unity官方给出的解释,推出il2cpp的原因主要是以下几点:1. C#的运行效率还是远落后于C/C++2. mono版本授权受限,无法使用.NET的许多新特性3. mono VM在各平台的.原创 2021-01-05 17:25:59 · 9843 阅读 · 0 评论 -
互联网内容审核员,机器背后的“打工人”
希腊神话故事中,西西弗斯被宙斯惩罚,每天必须把一块石头从山脚推到山顶,而推到山顶之后,石头又会因为重力滚到山下,于是西西弗斯必须每天周而复始地推石头。平常上网浏览消息,你我都以为接收到的是所有信息,其实有这样一个行业默默存在,把许多有害信息屏蔽了,互联网内容审核正在走向人工强干预。互联网内容审核工作就像是“推石头”。审核员们坐在办公室内,每日对着电脑屏幕,不停地判断。一般而言,他们会和人工智能合作,再登录审核后台之后,只需要按几个键,依次将上万条互联网内容屏蔽、忽略、封禁、通过……。在这条数字化原创 2020-12-30 10:23:22 · 10219 阅读 · 0 评论 -
12月第3周易盾业务风控关注 | 中央网信办要求经脱敏处理的信息才可公开
易盾业务风控周报每周报道值得关注的安全技术和事件,包括但不限于内容安全、移动安全、业务安全和网络安全,帮助企业提高警惕,规避这些似小实大、影响业务健康发展的安全风险。1.政策监管观察【中央网信办要求经脱敏处理的信息才可公开】个人隐私权不可侵犯,在疫情防控面前也不例外。早在今年2月,中央网信办就发通知指出:任何单位和个人未经被收集者同意,不得公开姓名、年龄、身份证号码、电话等个人信息,因联防联控工作需要,且经过脱敏处理的除外。【欧盟数字新法案即将出台,给美科技巨头再施“紧箍咒”】美国科技巨头们在欧原创 2020-12-21 19:18:24 · 10221 阅读 · 0 评论 -
在热词中看舆论,摆脱“黑天鹅”效应
在互联网时代,热词往往反应了一段时间内公众普遍关注的事件。因此,热词计算是舆情系统中的核心模块,针对资讯、评论、弹幕等进行热词统计,可以快速对海量资讯提取核心词汇,帮助用户快速研判舆论舆情。然而海量数据的热词计算,对计算的实时性、准确性提出了很大的挑战。一、技术难点与常规解决方案○ 关键词提取,关键词提取好坏直接影响统计效果,如何提取高质量关键词?常规的技术方案,一般是通过计算TF-IDF词频提取关键词。然而,该方案需要维护复杂的词库,后续还需要不断更新词条,因此维护成本较大。○ 海..原创 2020-11-03 19:15:58 · 10549 阅读 · 0 评论 -
文本分类在内容安全应用中的数据不平衡问题
经过几十年的发展,文本分类在学术界已经是一个比较成熟的技术,目前自然语言处理(NLP)的研究热点已经不在文本分类上面。然而,作为内容安全检测的一个重要技术手段,文本分类在实际业务中还是有不少的挑战。首先,内容安全场景对分类的准确度要求极高,不但要求较低的误判率,任何一个漏判都有可能给产品方带来严重的后果。其次,众所周知数据不平衡对分类模型的影响很大,而内容安全场景恰恰存在非常严重的数据不平衡问题。本文主要讨论文本分类在内容安全应用中遇到的数据不平衡问题以及常用的解决办法。数据不平衡问..原创 2020-10-19 14:05:16 · 9990 阅读 · 0 评论