四、富函数和窗口操作


一、富函数

  • 富函数:相当于常规转换函数的扩展。一般rich + 常规函数就是该常规函数所对应的富函数。
  • 富函数与常规函数的区别。富函数中多了两个方法:
	@Override
	public void open(Configuration parameters) throws Exception {}

	@Override
	public void close() throws Exception {}
  • open函数一般用作初始化数据
  • close函数一般用作清理工作

二、窗口操作符

窗口操作符:一般用作开窗处理,为了获取有界的流,将流式数据切断成一批数据,与spark Streaming中的开窗相似。会将数据分发到有限大小的桶(bucket)中分析。

1、窗口的类型:

  • 时间窗口(Time Window)
    • 滚动时间窗口
    • 滑动时间窗口
    • 会话窗口(Session Windows)
  • 计数窗口(Count Window)
    • 滚动计数窗口
    • 滑动计数窗口
  • 全局窗口

窗口特点:

	1、左闭右开 
	2、结构转换:(key,value)=>((key,value),key) => window => ((key,value),key,window)

2、滚动窗口(Tumbling Windows)

特点:

  • 数据按照固定时间,或者固定值进行切分。
  • 时间对齐,窗口长度固定,没有重叠

3、滑动窗口(Sliding Windows)

特点:

  • 滑动窗口由滑动窗口的长度和滑动窗口的步长来决定。
  • 窗口长度固定,可以重叠

3、会话窗口(Session window)

特点:

  • 存在一个超时时间 timeout ,也就是一段时间没有接收到新数据就会生成新的窗口。多用于统计分散时间的数据。
  • 时间无对齐

4、window API以及注意

  • window()
  • timeWindow():时间窗口(常用)
  • countWindow():计数窗口

注意:开窗函数必须在keyBy()函数之后。

5、窗口聚合函数

一般用作对开过窗的函数进行处理操作的函数。可以分为两类

  • 增量聚合函数
    • 在开窗内,没进入一条数据就进行计算。,维持着一个简单的累加器。
    • 常用函数ReduceFunction,AggregateFunction
  • 全窗口聚合函数
    • 先将全窗口的数据全部收集起来,计算时,遍历所有数据进行计算。
    • 实现 ProcessWindowFunction
    • 可以获取对应的一些参数,例如窗口的开始时间和结束时间,

区别:

  • 增量聚合函数,进来一次处理一次数据,如果开窗内数据较多,需要计算的次数较多,对cpu的压力较大。
  • 全量聚合函数,需要等所有数据全部收集后,统一遍历计算,如果窗口内数据较多,会对内存压力较大,占内存。
  • 也可以两者统一使用,可以
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值