使用Ray将可扩展的自动化机器学习(AutoML)用于时序预测

活动链接:SPARK中文峰会7月4日(二)|Ray On Spark

演讲嘉宾简介:黄晟盛,Intel高级架构师,Apache Spark committer,PMC member Analytics Zoo和BigDL重要贡献者。

以下内容根据演讲视频以及PPT整理而成。

点击链接观看精彩回放:https://developer.aliyun.com/live/43188

本次分享主要围绕以下四个方面:
一、Background
二、Scalable AutoML for Time Series
三、Use Case Sharing & Learnings
四、Future Work

Background

Analytics Zoo

BigDL是英特尔Spark团队的第一个开源项目,基于Spark的深度学习框架,对标的是TensorFlow、Caffe等库,在BigDL中实现了大量的神经网络层,整个模型的训练可以以Spark job的形式跑在大数据集群上。后来在BigDL基础上又开源了Analytics Zoo,为大数据用户提供了统一的端到端的大数据+深度学习的平台,为用户提供单机到集群的无缝式体验。Analytics Zoo集成了多种软硬件加速库,为主流的深度学习框架TensorFlow,PyTorch,Keras等等提供了更便捷的分布式工作流支持。同时提供了大量的预定义的模型和参考案例,使得用户使用起来更方便更高效。下图展示了Analytics Zoo架构概览,Analytics Zoo可以跑在各种环境当中,包括笔记本、K8S集群、Hadoop Cluster、Spark Cluster等等。Analytics Zoo的底层有pipeline的支持,这些流水线组件可以使得用户更方便的将深度学习框架使用到工作学习当中,比如分布式的TensorFlow和PyTorch支持、RayOnSpark、Spark DataFrame、ML pipelines for DL、Inference Model等等。流水线之上提供了Workflow方面的支持,如自动调参,自动Cluster Serving等。最上层针对不同的用户场景,提供了场景的算法,使得用户模型的搭建更加简便。

Time Series

时间序列数据指的是在时间轴上有序的样本,一般是数值类型,可以是标量也可以是矢量。标量是单变量的预测,矢量是多变量预测。常见的时序数据预测包括一段时间的股票价格预测、商品销量、监控指标、传感器设备数据。下图展示的是2014年到2015年出租车乘客数量时序数据,可以看到这份时序数据是有一定周期规律的,但也不是非常的规整,现实世界的。时序数据是多种多样的,各自可能有有不同的特征。

对时序数据的分析有很多种类。时序预测是首先是用过去可以预测未来。时序异常检测,另一个是可以发现异常时序特征的样本。,此外还有还有时序分类及时序聚类等等。时序预测可以作为在线异常检测的前序步骤,首先根据过去样本数据预测将来数据,当实际值到达时,去比较预测值和实际值之间的差距,当差距过大时可以认为新的数据可能是异常。时序分析本身也有多种应用,销量或资源的预测可以用于仓储管理和资源人力分配,对通信网络的KPI分析可以用于通信网络质量检测,针对设备传感器数据传感器设备的预测可以用于高价值设备的维护,针对服务监控指标分析可以用于智能运维。AIOps是一个常常用到时间序列分析的领域,企业的系统迁移到云端之后,传统的运维方法很难管理大规模的虚拟机和服务,AIOps试图使用大数据和ML、AI的技术在监控数据中进行挖掘和分析,自动化探测和修复问题,从而节省运营成本,减少错误修复平均时间。常见的数据分析在AIOps的使用场景包括:是对虚拟机状态的异常监测和告警,以及异常和告警的根源分析,再根据长期或短期的趋势预测指导资源的规划和配置。

  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值