亚马逊云科技生成式AI技术助力多模态智能内容审核

最新推荐文章于 2025-04-18 21:17:06 发布

taibaili2023

最新推荐文章于 2025-04-18 21:17:06 发布

阅读量1.2k

点赞数 26

文章标签： aws

本文链接：https://blog.csdn.net/weixin_46812959/article/details/141073113

版权

关键字: [内容审核场景, 生成式Ai服务, 多模态智能化审核, 用户生成内容, 内容理解准确性]

本文字数: 1800, 阅读完需: 9 分钟

导读

吴洪亮先生在演讲中介绍了亚马逊云科技生成式AI服务如何打造多模态的智能化内容审核。他阐述了内容审核的场景和挑战,包括海量非结构化数据、多语种多渠道、人工审核效率低下等。他介绍了利用亚马逊云科技的生成式AI服务(如Bedrock、Rekognition、Transcribe、Comprehend等)构建智能审核方案的流程和优势,如提高内容理解准确性、支持多语种、无需关注并发和容量等。最后,他演示了一个基于该方案的内容审核平台,并分享了客户案例,展示了该方案在减少人力成本、提高准确率方面的效果。

演讲精华

以下是小编为您整理的本次演讲的精华，共1500字，阅读时间大约是8分钟。

内容审核是一个日益重要的课题,其复杂性和数据量已经超出了人力处理的能力范围。根据Grand View Research的报告,2021年亚太地区用户生成内容(UGC)市场价值已达9.4亿美元,年复合增长率高达31.8%,预计到2028年这一市场将达到100亿美元规模。该报告显示,79%的消费者决策受到UGC的影响,80%的网络内容可能由UGC生成。面对如此庞大的数据量和复杂性,内容审核的安全成本风险和有害内容暴露的责任不断增加。

标准内容审核通常包括评论审核、舆情分析、社区风控,以及自定义的审核标准。然而,进行内容审核时面临诸多挑战:首先是多语种、多渠道的问题,可能会涉及到不同的文化、宗教、民族;其次是大量的非结构化数据,包括文本、音频、视频、图片等;另外,人工处理的效率无法满足现有海量数据的审核需求;不同的行业和业务可能需要不同的审核标准,同时这些标准也需要不断地进行迭代;此外,内容审核正呈现出多模态的趋势,图片、音视频、文本等多种形式的内容都需要进行审核。客户正在转向机器学习的方式来进行内容审核,这需要大量的UGC内容数据进行模型训练,同时也要保证社区的安全性和包容性,并减少人力资源的工作量。

为解决上述挑战,亚马逊云科技提出了基于生成式人工智能(GenAI)服务的智能内容审核方案。该方案的工作流程是:首先对原始数据进行输入,如聊天记录、聊天日志、社区内容等,然后进行机器审核,通过对内容的判定来得到一个置信度分数。如果置信度低于设定的下限阈值,并且满足自定义的审核标准,则可以对这些内容进行放行;如果置信度高于上限阈值,则可以对这些内容进行自动化处理,包括账号封禁或违规内容删除;如果置信度介于上下限之间,则需要引入人工进行二次审核,对于疑似内容或判定不清楚的情况也需要人工复审。当然,该方案也包括让用户对审核结果进行申诉的途径。由于不同行业不同业务的审核需求有所区别,因此该方案包含自定义的审核标准,规定什么样的内容可以通过审核,什么样的内容不合规,同时这些标准也会根据业务需求不断迭代更新。

对于智能审核方案的具体工作流程,输入内容如视频文件,首先会对音频流使用亚马逊云科技的语音转文字服务Amazon Transcribe进行处理;对于视频流,如果采用抽帧模式,则会依赖于大模型的多模态能力,对抽取的视频帧进行逐帧理解。这些视频内容的原始数据、解析出的元数据都会存储在数据库中,然后通过多维度的理解,可以对数据进行进一步处理,比如根据自定义的内容审核标准对视频进行剪辑和切片,或者对内容进行浓缩,将长视频通过提取高光时刻的方式浓缩为短视频,或者根据判别模块的结果对内容进行审核。

该智能审核方案具有以下优势:首先,它依赖于大模型,能够提高对内容的理解准确性;其次,由于大模型支持多种语言,包括一些小语种,因此该方案也支持多语种内容的审核;再者,该方案采用了松耦合的架构设计,比如音频转换这一环节可以使用亚马逊云科技的托管服务Amazon Transcribe,也可以使用一些开源的方案;另外,该方案利用了大模型的多模态理解能力,不仅能够获取基于时间维度的文字内容,还能提取字幕角色、物体位置、动作、旁白以及台词等丰富信息;同时,这套架构采用了Serverless设计,运维人员无需考虑系统的并发和容量问题;最后,该方案不会将隐私数据提交给公共模型进行训练。

在多模态内容分析审核领域,亚马逊云科技提供了多项能力和服务:Bedrock可以方便接入基础模型,如CloudInk、LlaMa等;Amazon Rekognition是一项托管服务,可用于图片和视频的识别,包括有害内容的甄别;Amazon Transcribe则提供语音转文字的能力;Amazon Comprehend用于自然语言处理,包括情感分析等;Amazon Translate可以实现语言翻译;Amazon A2I则可以简化人工复审的流程,并与Amazon Rekognition结合使用。

视频中还演示了一个内容审核方案的具体实施。开发人员需要提供原始图片及相应的数据标注,并上传到亚马逊云科技的对象存储服务S3;然后借助SageMaker的训练作业对模型进行训练,训练完成后可通过SageMaker的端点对外提供服务。终端用户上传文件后,通过API网关进行路由,将请求分发给Amazon Lambda;Lambda根据图片的标签来决定是调用Amazon Rekognition服务,还是使用自定义的模型来对图片进行审核。如果是视频文件,则需要先将视频上传到S3,通过VideoHandler进行预处理,再调用ModerationHandler,按照上述流程进行审核。

演示中使用了一个金融客户提供的两段视频内容,这些视频本身具有审核违规内容的能力,但一些自媒体会在视频中夹带私货,推荐股票代码。第一段视频是合规的,第二段在大约20多秒的时候插入了股票推荐代码。通过上传这两段视频,并选择对应的语言对,系统能够对视频的关键元素进行提取和审核。对于第一段合规视频,审核结果为”通过”;而对于第二段夹带私货的视频,系统列出了它在20多秒处推荐的股票代码”000725”,该内容违反了自定义的审核规则,因此最终审核结果为”违规”。对于合规内容,可以直接放行;对于违规内容,需要进行人工介入或自动化处理,如下架或不允许发布等。

该内容审核方案已被一家二次元公司应用,帮助他们减少了UGC内容审核的人力成本,提高了审核准确率。之前该公司有大约100人的审核团队,每天需要处理大量图片资源,但由于用户上传的图片文件太多,他们只能事后处理,无法保证审核的时效性。通过采用亚马逊云科技的内容审核平台,该公司减少了在UGC内容审核上的人力成本,同时也提升了审核的准确率。该平台还提供了SaaS化的API,具有高性能,方便公司进行系统集成。

总的来说,亚马逊云科技基于生成式AI服务构建的多模态智能内容审核方案,能够高效、准确地审核海量UGC内容,满足不同行业的自定义审核需求,减轻人力压力,提升审核质量,是一种创新的内容审核解决方案。该方案综合运用了大模型、多模态理解、自定义审核标准、人工复审等多种技术,形成了一套完整的内容审核体系,可有效应对当前内容审核所面临的诸多挑战,为企业提供了一种全新的内容审核解决之道。

下面是一些演讲现场的精彩瞬间：

吴洪亮先生作为亚马逊云科技的解决方案架构师,介绍了亚马逊云科技生成式AI服务在多模态智能化内容审核中的应用。

演讲者分析了亚太地区UGC市场的快速增长,预计到2028年将达到100亿美元的市值。

在内容审核过程中,我们面临着多语种、多渠道、海量非结构化数据、不同行业标准以及多模态趋势等诸多挑战。

一个全面的内容审核方案,涵盖机器审核、人工审核和用户申诉,旨在保障社区内容健康有序。

演讲者阐述了利用大型语言模型进行多模态理解的优势,包括提高内容理解准确性、支持多种语言、松耦合架构、提取字幕、角色、物体和动作等信息,以及无需考虑并发和容量的无服务器架构,同时保护隐私数据不被公共模型训练。

亚马逊云科技提供了多模态内容分析审核能力,包括基础模型接入、图像视频识别、语音转文字、自然语言处理、语言翻译以及人工复审流程简化等功能。

总结

在当今时代,用户生成内容(UGC)的数量和复杂性已经超出了人工审核的能力。亚马逊云科技通过生成式AI服务,为内容审核提供了一种智能化、多模态的解决方案。该方案利用大模型的强大能力,可以准确理解多语种、多渠道的非结构化数据,包括文本、音频、视频和图像。它采用了一种松耦合的架构,将音频转换、视频分析和内容审核等任务分别委托给不同的AI服务,从而提高了效率和灵活性。

该解决方案的核心优势在于:1)依赖大模型提高内容理解准确性;2)支持多语种,包括小语种;3)无需考虑并发和容量;4)隐私数据不提交给公共模型训练。亚马逊云在多模态内容分析审核上提供了一系列强大的服务,如Bedrock、Rekognition、Transcribe、Comprehend、Translate和A2I等。通过这些服务的协同工作,可以实现高效、准确的内容审核,减少人力成本,保证社区安全性和包容性。该解决方案已在多个行业得到成功应用,帮助客户提高了审核效率和准确率。

总之,亚马逊云科技的生成式AI服务为内容审核带来了革命性的变革,开启了一个智能化、多模态的新时代。它不仅能够满足当前的审核需求,而且为未来更加复杂的场景奠定了基础。