时间序列预测必读的20篇论文!

信息时代,最不缺的是学习资源,最缺的是系统的学习资源。——于我心有戚戚焉

常有粉丝留言问我,有没有系统的、可供小白、初学者快速上手时间序列预测的学习资源——教材书籍、视频直播、或者论文都行。

我去请教了一位大佬,YY。YY大佬在TOP餐饮集团、消费品集团主持过数据科学项目,长期担任人员经理、负责新人培训,在初学者快速上手入门这块很有发言权。

大佬YY

本科:中科大少年班

研究生:柏林工业大学&皇家理工学院数学和计算机双硕

国内TOP餐饮集团数据科学项目负责人

全球TOP消费品集团数据科学项目负责人

YY给我列了一张paper list,涵盖教材和综述、机器学习算法用于时序预测、RNN用于时序预测、CNN用于时序预测、GNN用于时序预测、Transformer用于时序预测、传统统计学与深度学习结合、多层级时序预测、时序领域数据增强方法以及具体领域的时序预测案例等,计有20篇论文,是小白、初学者快速上手入门时序领域的最佳途径之一。

需要paper list 文档的朋友,加我微信索取。

扫码回复“时序”领取paper list 文档

????

除了paper list 打牢理论基础外,快速上手时间序列预测,更多需要项目实战的积累。时间序列预测与具体业务场景的结合非常紧密。预测对象、颗粒度、前置期、准确性指标等对于构建模型最关键的因素往往并非一目了然,只有通过对不同场景的需求进行深入分析才能找到合适解决方案。

这里我给大家推荐几个实战项目。涵盖金融、IT、新零售、供应链等当今最热的领域????

项目1

基于企业现金流预测的投资决策

项目意义:

企业经营者需要做现金流预测,以决定运营、投资、融资规划是否需要调整,保持现金收支平衡和偿债能力。

在本项目中,大家需要对不同现金池中的流入、流出现金做出预测,并且基于预测结果给出短期、中期和长期的投资决策建议。

重要知识点:

拆解业务需求、Prophet时间序列预测算法

技术方法还可以复用到的场景

客流预测、水位预测、交通流量预测、用电量预测

项目2

AIOps实时异常检测和根因分析

项目意义:

在对互联网Web服务的运维过程中,首要需求通常是对监控的各种关键性能指标(KPI)进行异常检测,而后则需要对检测出的异常信息进行分析定位,以便尽快做进一步的修复止损等操作。由于Web服务直接影响生意,因此异常检测和根因分析需要做到实时响应。

在本场景中,大家需要搭建一个实时的异常检测和根因分析系统。当关键服务的KPI被检测到异常时,需要尽快定位到是组件最可能是根因

重要知识点:

  • 无监督异常检测算法:基于时序预测的算法、基于时序拆解的算法、基于机器学习的算法

  • 根因分析算法:基于决策树、基于关联规则

  • 如何搭建实时模型服务

技术方法还可以用到的场景:

零件异常检测、水位异常检测

项目3

新零售销量预测与动态定价

项目意义:

动态定价这在日常生活中非常常见,比如购买机票、预订酒店客房、叫出租车服务和甚至到菜场买菜,所要付的费用其实并不是一成不变的,而是根据市场需求在调整。动态定价模型允许根据需求调整产品或服务的定价,以增加收益。

在本场景中,大家为某新零售便利店搭建需求预测模型,并且需要模拟商品在不同价格下的销量,从而帮助企业决定商品定价,达到收益的最大化。

重要知识点:

  • 价格敏感度概念

  • 时间序列预测算法:单层级预测、多层级预测、传统统计学算法融合深度学习算法

技术方法还可以用到的场景:

航班定价、电影定价

项目4

供应链需求预测和计划

项目意义:

企业供应链本质就是需要回答3W1Q的问题,即就是Where(哪里)、When(什么时候)、What(需要什么)、Quantity(需求数量)。敏捷的供应链系统离不开两个核心模块:需求预测和计划。前者用以回答市场的需求量和需求的不确定性;后者是结合需求预测、业务限制和业务目标,实现供应链的最优化。

在本场景中,大家需要搭建商品销量预测和商品补货计划系统。其中商品销量预测既包含有历史销售数据的商品,也包含没有历史数据的新品。补货计划需要涵盖区域大仓和销售终端。

重要知识点:

  • 供应链重要概念:需求预测、多级补货、前置期、安全库存、欠品率、库存周转天数

  • 时间序列预测算法:单层级预测、多层级预测、新品预测

  • 运筹学算法:装箱问题、整数规划

技术方法还可以用到的场景:

人员排班计划、生产排程计划

以上4个项目全部由YY大佬指导完成。缺少项目实战经验、想积累实战项目的朋友,可以跟着YY大佬学习。感兴趣的朋友,扫下方二维码添加我。

扫码回复“时序”即可

????

  • 2
    点赞
  • 24
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: 好的,以下是一些你需要知道的Spark知识点: 1. Spark是一个基于内存的分布式计算框架,可以处理大规模数据集。 2. Spark的核心概念是RDD(弹性分布式数据集),它是一个可分区、可并行计算的数据集合。 3. Spark支持多种编程语言,包括Scala、Java、Python和R。 4. Spark可以与多种数据存储系统集成,包括Hadoop HDFS、Cassandra、HBase和Amazon S3等。 5. Spark提供了多种高级API,包括Spark SQL、Spark Streaming和MLlib等,可以用于数据处理、流处理和机器学习等任务。 6. Spark可以在本地模式下运行,也可以在集群模式下运行,支持多种集群管理器,包括Apache Mesos、Hadoop YARN和Standalone等。 7. Spark的性能优于Hadoop MapReduce,因为它可以将数据存储在内存中,从而避免了磁盘I/O的开销。 8. Spark还提供了一些优化技术,包括内存管理、数据分区和任务调度等,可以进一步提高性能。 希望这些知识点对你有所帮助! ### 回答2: 作为一名数据科学家或大数据工程师,掌握分布式计算框架Spark是必不可少的技能之一。Spark具有高效的内存计算能力、易于使用的API、丰富的生态系统等优点,因此它被广泛应用于数据处理、机器学习、图像处理等领域。在掌握Spark的过程中,有一些关键知识点需要牢记。 1. RDD与DataFrame的区别 Spark中最常用的数据结构有两种:RDD和DataFrame。RDD是不可变的分布式数据集,可以被分割并存储在不同的节点上进行处理。DataFrame是一种类似于关系型数据库表的结构,它提供了更高层次的API,可用于数据的查询、筛选和聚合。 2. Lazy Evaluation Spark中的操作具有“惰性求值”的特性,即只有在需要结果时才会实际执行操作。这种特性可以提高Spark的性能,因为它避免了不必要的计算和数据移动。但是,需要注意的是,当我们使用了多个转换操作时,可能会导致Spark在内存中存储所有转换的中间结果,从而导致内存不足的问题。 3. Shuffle的开销 Shuffle是指Spark中需要重新分区数据的过程。Shuffle操作通常会导致网络传输和磁盘IO的开销,并且会使Spark的性能下降。因此,我们应尽量避免过多的Shuffle操作,并且优化Shuffle的过程。 4. Spark调优 对于大规模数据处理任务,Spark的性能和稳定性都十分关键。因此,我们需要对Spark进行调优,以提高它的性能和减少故障。具体来说,我们可以通过增加内存分配、调整分区数量、合理设置并发度等方式来优化Spark的性能。 总之,掌握这些Spark的关键知识点有助于我们更好地开发和管理Spark应用程序,并在大数据领域中取得更好的成果。 ### 回答3: 作为目前最流行的大数据处理框架之一,Spark已经成为了大家谈论的热点话题。如果你想要学习关于Spark的知识,以下是你必须知道的Spark知识点。 1. RDD:RDD是Spark中最基本的抽象概念,全称是Resilient Distributed Datasets。RDD是一个容错的、可并行计算的数据集合。在Spark中,所有数据都是以RDD的形式出现的。RDD具有不变性,也就是说,RDD一旦被创建,就不可更改。如果需要对RDD进行操作,就需要创建一个新的RDD。 2. 迭代器(Iterator): Spark中的迭代器是一种延迟执行的方式。它允许 Spark 延迟计算,只有到调用 action 操作时才会真正开始计算数据。 3. 数据分区(Data Partitioning):数据分区可以更好的支持并行计算,让计算机更加高效的工作。Spark将数据分解成小块,每块专门分派给一个处理器来处理。分区的数量应该与处理器的数量相同,以充分利用每个处理器。 4. Shuffle:Shuffle是将数据重新分配和重新组合的过程,在Spark中用于在不同的节点之间传递数据。在数据分组、排序、变换等操作时,会频繁的使用shuffle操作。 5. 宽依赖和窄依赖(Wide and Narrow Dependencies):依赖是Spark RDD中的概念,表示与当前RDD对应的其它RDD。一个RDD可能依赖于多个RDD,此时依赖关系称为宽依赖(Wide Dependencies)。如果一个RDD依赖于一个RDD,那么这个依赖关系被称为窄依赖(Narrow Dependencies)。 6. Spark SQL:Spark SQL是一个新的模块,提供了使用结构化数据的一个新的方式。它将Spark的强大的处理引擎与表格数据结构相结合,使得Spark可以更容易地与现有的商业智能工具和数据仓库互操作。 7. Spark Streaming:Spark Streaming是Spark提供的流处理引擎,可以处理实时数据流。Spark Streaming对于数据挖掘,实时监控等有很好的应用场景。 以上就是您需要了解的一些Spark基础知识,当然,Spark这门技术还有很多精妙的理念和玩法,需要您自行探究。如果您想要学习Spark,可以参考Spark文档,同时多动手练习,不断总结经验,培养能独立解决问题的能力。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值