无边界数据和有边界数据
无边界数据:是一种不断增长的数据,比较符合现实。例如淘宝,无时无刻都有数据产生。
有边界数据:是一种有限的数据集,例如存储为csv格式的数据。
事件时间和处理时间
事件时间:数据产生实际的时间。
处理时间:数据处理框架接受数据时的时间,
批处理
大部分情况下,批处理输入 的数据是有边界数据,输出也是有边界数据,所以关注的是数据的事件时间。例如app的年度总结,收集的就是数据的事件时间,然后提取一年事件时间的数据进行处理。
流处理
流处理输入数据基本是无边界数据,输出也是无边界数据,但是流处理系统关心事件时间还是处理时间,要看场景而分。
例如计算网站qps,关心处理时间,即网页请求数据被监控系统接收到的时间。
而在一些医疗护理的流处理系统中,可能更关心事件时间。这种系统不会因为接受的数据延时而忽略时间发生的时间。