利用数据流构建世界最大游戏GenAI
关键字: [yt, Data Streaming Analytics, Game Industry Challenges, Stream Ingestion Options, Stream Storage Services, Stream Processing Transformations, Gaming Success Stories, Riot Games Evolution, Game Analytics Pipeline, Data Lake Architecture, Streaming Ingest Scenario]
本文字数: 400, 阅读完需: 2 分钟
导读
在一场亚马逊云科技活动上,Tom McGrath发表了题为”利用数据流构建大规模游戏”的演讲。他阐释了数据流如何助力游戏公司处理海量规模、以低延迟处理PB级数据,并优化玩家终生价值。他解释道,数据流涉及从各种来源摄取数据、按顺序存储、通过过滤和聚合进行处理,并将精心处理的结果发送到数据湖等目的地。演讲重点介绍了亚马逊云科技服务(如Amazon Kinesis Data Streams、Amazon MSK和Amazon Kinesis Data Analytics)如何为游戏中的数据流提供可扩展性、高可用性和经济高效性。演讲还分享了Supercell、Epic Games和Riot Games的成功案例,展示了它们如何利用亚马逊云科技数据流分析玩家数据,优化游戏体验。
演讲精华
以下是小编为您整理的本次演讲的精华,共100字,阅读时间大约是0分钟。
在当今时代,游戏行业面临着前所未有的挑战。规模化是其中最为显著的一个,游戏公司需要以最低的成本来支撑来自世界各地数以千万计的玩家。为了实现这一目标,它们需要采用安全可靠的工具,能够以极低的延迟处理和分析规模达到数百万亿字节的不断变化的数据,从而优化玩家的终身价值。
许多游戏公司正在从本地环境迁移到亚马逊云科技云平台,但这对于它们来说并非一蹴而就。开发人员常常困惑于从何入手。亚马逊云科技认为,开发者应当专注于创建有趣且创新的游戏,而非耗费大量时间和精力在处理基础设施上。
事实上,亚马逊云科技已经为90%的主要游戏公司提供了服务,包括Riot Games、Epic Games和Supercell等知名公司。为了构建数据流分析架构,摄取、处理和分析来自各种来源的高速大数据流,需要考虑五个关键组成部分。
首先是数据源,即产生实时高速数据的设备和应用程序。其次是流数据采集,需要实时从成千上万个数据源收集数据。第三是流数据存储,按照接收顺序存储事件数据,并能够重放。第四是流数据处理,通过过滤、聚合、连接不同的事件数据来创建精炼的结果集,实现实时分析,也被称为流式ETL。最后是目标系统,通常是数据湖、数据仓库、特定数据库或搜索索引等。
在亚马逊云科技中,流数据采集的选择包括利用DynamoDB的变更数据捕获功能、使用Amazon Database Migration Service进行变更数据捕获、使用托管的Apache Kafka连接器Amazon MSK Connect从文件或数据库进行变更数据捕获采集、编写自定义生产者利用流存储的SDK和客户端库、部署预构建代理,以及对于物联网相关游戏,可以使用Amazon IoT Core服务。
流数据存储的主要选择是Amazon MSK(托管的Apache Kafka流式服务)和Kinesis Data Streams,它们能存储有序数据、重放数据,并具有高度可扩展性,不同于传统的消息队列。
流数据处理的选择包括Kinesis Data Analytics for Apache Flink、KDA Studio、MSK Connect(允许轻量级转换并将数据发送到下游目标)、Kinesis Data Firehose(从Kinesis Data Streams等消费数据、进行轻量级转换并发送到下游)、无服务器的Amazon Lambda、Amazon EMR(包含Spark Streaming和Apache Flink)、亚马逊云科技 Glue(创建Spark Streaming应用)以及使用流存储的SDK和客户端库编写自定义消费者等。
在亚马逊云科技上进行流数据分析具有易用性、弹性、高可用性、亚马逊云科技服务集成、全托管和按使用付费等优势。接下来,我们来看一些游戏公司在亚马逊云科技上使用数据流分析的成功案例。
芬兰游戏公司Supercell每天需要处理450亿个事件。它选择使用Kinesis Data Streams,并结合Amazon EMR,通过分析用户数据来持续改进游戏体验。之前它在EC2上运行自己的Hadoop集群,现在改用了EMR服务。
Epic Games在其热门游戏Fortnite的直播活动中,需要为1500万并发玩家提供服务。它在亚马逊云科技上构建了数据湖,使用分析服务来评估玩家情绪并开发独特的游戏体验,处理和存储了数百万亿字节的数据。
另一家知名游戏公司Riot Games则采取了分步骤的方式在亚马逊云科技上构建其基础设施。最初,Riot Games只能在6小时后查询产生的数据。但在采用Amazon MSK后,这一时间缩短到了5分钟。MSK还帮助Riot Games降低了总体拥有成本,并淘汰了一个基于MapReduce的老旧数据管道。如今,Riot Games每天处理20TB的分析数据,并计划利用亚马逊云科技实例创建云端内容,并使用亚马逊云科技来支持都柏林、亚太地区和西雅图的云优先生产设施。
亚马逊云科技为游戏开发者提供了多种资源,帮助它们在云上构建游戏分析系统。其中包括Riot Games在re:Invent 2022上的一场演讲,详细介绍了它们的数据采集管道的演进历程;游戏分析管道参考架构,支持游戏遥测数据的流式采集、存储和分析,提供了REST API和Kinesis服务进行数据采集和处理;游戏数据湖最佳实践白皮书;以及Well-Architected框架中的流数据采集和处理场景参考。
总的来说,亚马逊云科技为游戏公司提供了完整的数据流分析解决方案,帮助它们应对规模、安全性、低延迟和优化用户体验等挑战,并分享了一些游戏公司的最佳实践案例。通过利用亚马逊云科技的数据流服务,游戏公司能够专注于创新游戏的开发,为玩家带来更加身临其境的体验,处理和分析大规模的游戏数据,提高游戏质量和用户体验。
总结
游戏行业面临着巨大的挑战,需要扩大规模以容纳全球数以千万计的玩家,同时以极低的延迟要求处理和分析不断变化的PB级数据。亚马逊云科技为游戏公司提供了一套全面的数据流服务,帮助它们克服这些障碍,使其能够实时从各种来源摄取、处理和分析高容量、高速率的数据。
在亚马逊云科技上进行数据流分析的架构包括五个关键组件:数据源、流摄取、流存储、流处理和目的地。亚马逊云科技为每个组件提供了一系列服务,包括Amazon Kinesis Data Streams、Amazon Managed Streaming for Apache Kafka (MSK)、Amazon Kinesis Data Analytics、亚马逊云科技 Lambda和Amazon EMR等。这些服务具有弹性、高可用性、持久性、无缝的亚马逊云科技集成,并采用按使用付费的定价模式。
像Supercell、Epic Games和Riot Games这样的知名游戏公司已经利用亚马逊云科技数据流服务处理和分析了大量数据,使它们能够优化玩家体验、评估情绪并为游戏开发提供信息。例如,Riot Games使用Amazon MSK每天处理超过20TB的分析数据,将查询数据的时间从6小时缩短到仅5分钟。
亚马逊云科技提供了各种资源帮助游戏公司实施数据流解决方案,包括参考架构、最佳实践白皮书和Well-Architected Framework Data Lens。通过利用亚马逊云科技数据流服务的强大功能,游戏公司可以专注于构建创新和引人入胜的游戏,同时将基础设施管理留给亚马逊云科技。
亚马逊云科技(Amazon Web Services)是全球云计算的开创者和引领者。提供200多类广泛而深入的云服务,服务全球245个国家和地区的数百万客户。亚马逊云科技致力于成为企业构建和应用生成式AI的首选,通过生成式AI技术栈,提供用于模型训练和推理的基础设施服务、构建生成式AI应用的大模型等工具、以及开箱即用的生成式AI应用。深耕本地、链接全球 – 在中国,亚马逊云科技通过安全、稳定、可信赖的云服务,助力中国企业加速数字化转型和创新,并深度参与全球化市场。