本文说讨论的 IncrementalPuller 是指 Hadoop 数据的增量查询,有两种场景,batch 模式下查询是指一次性返回所有或者有变化的数据,steaming 模式下查询是指连续返回所有数据并接着只返回有变化的数据,或者只返回有变化的数据,这取决于用户如何指定 increment scan 的 snapshot。
IncrementalPuller 配合数据的 Row Level Delete(即数据的update、delete)即可以实现 Incremental processing on Hadoop ,介于 batch processing 和 Stream processing 之间的 near-real-time processing,比如 batch processing 指的是数据结果延迟 1小时以上的,经典的是以 MR/Spark 为代表的 T+1 数据,Stream processing 指的是数据结果延迟小于5分钟,以 Flink/Spark Streaming 为代表,而 near-real-time processing 指的是数据结果延迟在 5分钟 到 1小时 之间计算,经典的场景是计算最近X