
Flink -- 批流一体
-spark和Flink都是粗粒度资源调度(在任务提交之前,将任务资源全部申请下来,这样会节约了任务开始执行时资源申请的时间,但是会浪费资源 -- 和mapreduce(细资源调度)比较)-- 在流出模式中使用常规的关联方式,flink会将两个表的数据一直保持在状态中,状态会越来越大 -- 可以设置状态过期时间,一段时间清理状态,比如值保留最近一天的状态。kv1:KeyValue(word=yujie, num=1) -- kv1中存储的是之前计算的结果,也就是状态(第一条数据除外)










