亚马逊云科技-15分钟分析利用运营分析工作负载GenAI
关键字: [yt, OpenSearch, Operational Analytical Workloads, Amazon Opensearch Service, Data Lifecycle Management, Anomaly Detection Observability, Security Analytics]
本文字数: 400, 阅读完需: 2 分钟
导读
在这场演讲中,演讲者探讨了Amazon OpenSearch Service如何支持运营分析工作负载。具体而言,该服务提供了存储层、索引状态管理、异常检测、可观察性和安全分析等功能。演讲重点阐述了Amazon OpenSearch Service如何实现高效的日志分析、故障排查,以及洞察用户行为,同时还具备高可用性、可扩展性和安全性。
演讲精华
以下是小编为您整理的本次演讲的精华,共100字,阅读时间大约是0分钟。
亚马逊云科技-15分钟分析利用运营分析工作负载GenAI
在这个视频中,来自亚马逊云科技的开源专家Aron Lakshmanin探讨了如何充分利用在Amazon OpenSearch Service上部署的运营分析工作负载。他首先简要概述了OpenSearch项目,这是一个开源工具套件,包括:
- OpenSearch,一个建立在Apache Lucene之上的通用搜索和分析引擎
- OpenSearch Dashboards,用于OpenSearch的可视化和管理界面
- 一组提供额外功能(如异常检测、警报、可观察性和安全分析)的插件
- 一组客户端库,可以方便地从不同的编程语言与OpenSearch进行交互
OpenSearch社区拥有超过55个合作伙伴,以及亚马逊云科技、Oracle、Ivan和Bonsai等多个服务提供商。
Amazon OpenSearch Service是一项全面托管的服务,可以轻松在亚马逊云科技云中使用OpenSearch。用户无需担心部署、扩展、监控或保护OpenSearch,因为该服务会为用户处理所有这些。用户可以更改实例类型、执行无停机的就地升级和其他配置更改。用户可以获得每小时增量备份、多个存储层、跨可用区域的高可用性和无数据传输费用。简而言之,Amazon OpenSearch Service可以让用户无需担心底层基础设施即可轻松使用OpenSearch。
OpenSearch可以将日志行流转换为有意义的见解。用户可以使用OpenSearch来监控应用程序、排除故障并深入了解用户行为。用户可以使用OpenSearch来回答诸如”我的基础设施是否正常运行?“或”我是否可以找到处理用户请求的瓶颈?“等问题。
在深入探讨这些可实现上述用例的功能之前,让我们先高度概述一下如何与OpenSearch Service进行交互。典型的日志分析工作负载的工作方式是从日志源提取日志、将它们转换为JSON文档,然后将它们发送到OpenSearch集群。OpenSearch提供API和可视化仪表板,允许开发人员、分析师和DevOps工程师搜索和分析数据。
为时间敏感的数据(如日志和应用程序事件)定义生命周期很重要。数据在刚生成时最有价值,因为它可用于快速识别和排除故障。然而,随着数据变旧,它变得不那么有价值,也很少被查询。在某些情况下,用户可能希望出于合规性原因将这些数据存储更长时间。
Amazon OpenSearch Service提供了三个存储层来管理用户的数据:
- 热层:这是默认的存储层,由EBS卷或数据节点中的内部存储支持。
- UltraWarm层:这是一个针对不常访问的数据的经济高效的存储层。它由Amazon S3支持,Amazon S3是一种持久且高度可用的存储服务,因此用户不需要副本。用户可以对UltraWarm中的数据进行交互式查询。如果数据被本地缓存,用户将获得与热层类似的性能,但它只能支持较少的并发查询。
- 冷层:这是用于存档目的的最经济高效的存储。它与计算分离,并为用户提供按需查询体验。它可以在几秒钟内连接到ARM实例,用户可以在分析后将其分离。
索引状态管理(ISM)有助于管理索引的生命周期,并允许用户定义策略,根据最小年龄、大小或计数等条件自动迁移或删除索引。
当数据被发送到Amazon OpenSearch集群时,它首先会被索引到默认的热层。然后,根据年龄、大小、文档计数或简单的cron计划,用户可以将其迁移到UltraWarm层。在不常访问的时间或其他条件之后,用户可以将其迁移到更加经济的冷层。在保留期过后,用户可以删除索引。用户可以选择使用存储层来存储数据更长时间,但这完全是可选的。用户也可以自动化从热层删除的过程。
除了标准的基于指标的警报之外,OpenSearch还支持基于机器学习的异常检测。这意味着用户可以创建一个探测器来监视一个或多个指标。该算法将学习这些指标的正常值。它在内部使用随机切割森林算法来发现异常。如果指标超过或低于阈值,该算法将发送警报。这可以帮助减少误报的数量,并且用户无需成为机器学习专家即可使用。
OpenSearch有一个可观察性插件,可以洞察用户的分布式应用程序系统。现代应用程序架构通常由许多不同的微服务组成。识别问题可能是一项耗时的任务,并可能需要一些猜测。对于这种高度解耦的系统,可观察性是通过收集和分析来自不同来源的数据来了解系统状态的能力。
OpenSearch支持OpenTelemetry,这是来自云原生计算基金会(CNCF)的一种规范。用户可以手动或自动检测代码以收集日志、跟踪和指标,并将其发送到OpenSearch。这些数据可用于识别性能瓶颈、检测错误、跟踪用户行为或甚至排除故障。屏幕截图显示了OpenSearch可观察性插件的功能。这些预先设置的仪表板可以帮助用户了解应用程序的状态。它提供了跟踪组服务映射、延迟、错误率和吞吐量数据的单一窗格视图。数据根据指标用颜色编码,这使得识别执行路径中的瓶颈变得更加容易。
安全是每个人的责任。及早发现潜在威胁对任何组织都很重要。OpenSearch在今年早些时候的2.5版本中引入了安全分析。使用OpenSearch Service,用户可以系统地检测潜在威胁,然后响应系统状态以自动化安全流程。
使用OpenSearch中的安全分析,用户可以遵循以下工作流程:识别和摄取日志。安全分析支持包括DPC流日志、网络事件、DNS日志和Apache访问日志在内的十多种标准日志格式。用户可以使用OpenSearch Ingest Pipelines从源中摄取数据到OpenSearch集群,然后创建探测器。
部署、监控和解决问题: 在为日志分析部署集群时,重要的是要记住,一开始无法准确预测基础设施需求。没有确定性公式可以精准告知所需配置。正确扩展OpenSearch的唯一方式是从预测配置开始、使用实际数据和映射模式运行,并测量性能和监控集群利用率。这将允许根据需要调整配置。随着使用情况的有机变化,需要重复此周期。
每个分片最多可以处理50GB的数据。可以每周、每月或更大的间隔而非每天轮换索引。在摄取时,请始终考虑使用Bulk API对数据进行分组,以最小化网络调用并提高底层Lucene级别的性能。
配置高可用性: 我们在去年年底推出的新的跨可用区域备用选项,将使用户能够在区域内的单个域中轻松实现99.99%的可用性。一个可用区域中的数据节点将在发生故障(如节点故障或单个区域故障)时充当备用节点,同时数据将被复制到这些节点。它们不会为任何搜索流量服务。当集群内部出现任何问题时,故障转移到备用节点将在一分钟内发生。这些备用节点将提供流量服务,而出现问题的可用区域将在问题解决后成为备用。
在OpenSearch域中保持25%的可用存储空间很重要。这将为用户提供吸收卷增长的余地,并为OpenSearch内部管理例程提供工作空间。如果存储达到95%,集群将变为只读,写入将被阻止。
通常建议保持活动分片与CPU的比率为1到1.5。这意味着需要为OpenSearch集群中的每个活动分片提供1.5个vCPU内核。
监控OpenSearch中分片的大小很重要。对于日志和事件等附加数据,分片大小可以达到50GB。对于不可变数据(如应用程序数据),分片大小可以达到30GB。一个良好的经验法则是每GB JVM堆有20到25个分片。
OpenSearch进程获得一半的可用内存,最多为30.5GB,其余内存将用于文件系统缓存和其他进程。这意味着较大实例上可以拥有的最大分片数可达600到750个。
重要的是要注意,这些只是一般指导原则。用户可以在每个节点上拥有的实际分片数量将取决于特定工作负载和配置。
用户可以使用我们在GitHub上Amazon Web Services Samples存储库中提供的开源监控工具,该工具可以在亚马逊云科技账户中安装。该工具将查找并收集来自所有可用集群(包括OpenSearch、Serverless Collections)以及跨区域的指标。它提供了一个全局预构建的仪表板,用户可以在其中查看跨区域的所有集群的集群运行状况,它还将为基本信号设置警报。
总之,这个视频全面介绍了如何充分利用Amazon OpenSearch Service上的运营分析工作负载,包括服务概述、增强体验的功能、最佳实践等内容,确保了内容的完整性和准确性。
总结
该演讲深入探讨了 Amazon OpenSearch Service 的功能和最佳实践。这是一项完全托管的服务,简化了 OpenSearch 的使用,OpenSearch 是一套用于搜索和分析工作负载的开源工具套件。演讲重点介绍了该服务的关键特性,包括用于管理数据生命周期的存储层、基于机器学习的异常检测、可观察性洞察以及用于威胁检测的安全分析。
演讲者强调定义数据生命周期的重要性,利用 Hot、UltraWarm 和 Cold 存储层根据数据的年龄和访问频率来优化成本和性能。此外,演讲还涵盖了使用 Index State Management 自动化数据迁移和删除策略的方法。
另一个关键点是该服务能够通过 OpenTelemetry 集成提供对分布式应用程序的可观察性,从而实现日志、跟踪和指标的收集与分析,用于性能监控和故障排查。
演讲还介绍了安全分析功能,它利用预先打包的 Sigma 规则和相关性引擎从日志数据中识别潜在的网络安全威胁,实现主动威胁检测和响应。
最后,演讲者分享了为 OpenSearch Service 集群调整大小和配置的最佳实践,包括估计存储和 CPU 需求、选择合适的实例类型、监控和调整配置,以及通过 Multi-AZ with Standby 选项和适当的分片分布来确保高可用性。
亚马逊云科技(Amazon Web Services)是全球云计算的开创者和引领者。提供200多类广泛而深入的云服务,服务全球245个国家和地区的数百万客户。亚马逊云科技致力于成为企业构建和应用生成式AI的首选,通过生成式AI技术栈,提供用于模型训练和推理的基础设施服务、构建生成式AI应用的大模型等工具、以及开箱即用的生成式AI应用。深耕本地、链接全球 – 在中国,亚马逊云科技通过安全、稳定、可信赖的云服务,助力中国企业加速数字化转型和创新,并深度参与全球化市场。