Flink作业在生产情况下无法正常运行的情况非常多,很多问题都是无法避免的。对于Flink集群来讲,能够快速从异常状态中恢复,同时保证处理数据的正确性和一致性非常重要。Flink主要借助Checkpoint的方式保障整个系统状态数据的一致性,也就是基于ABS算法。
ABS全称异步屏障快照(Asynchronous Barrier
Snapshotting),是对Chandy-Lamport算法(分布式快照算法)在工业项目中落地实现的补充和优化。
Checkpoint的执行过程分为三个阶段:启动、执行以及确认完成
1、启动
Checkpoint的启动过程由JobManager管理节点中的CheckpointCoordinator组件控制,该组件会周期性地向数据源节点发送执行Checkpoint的请求,执行频率取决于用户配置的CheckpointInterval参数。具体在代码中配置
final StreamExecutionEnvironment env =
StreamExecutionEnvironment.getExecutionEnvironment();
env.enableCheckpointing(1000L);
数据源节点中的算子会将消费数据对应的Position发送到JobManager管理节点中。然后JobManager节点会存储Checkpoint元数据,如果数据源是kafka,那最后存储的就是消费Kafka主题的偏移量,数据源执行完Checkpoint操作后,继续向下游节点发送CheckpointBarrier事件。