Flink Debugging & Monitoring - Monitoring Checkpointing(Checkpointing)

Table of Contents

概览

Overview Tab

History Tab

Summary Tab

Configuration Tab

Checkpoint细节


Flink 的 web 界面提供了一个选项卡来监视作业的检查点。这些统计数据在作业终止后也可用。有四个不同的选项卡显示有关检查点的信息:概览、历史记录、摘要和配置。下面的部分将依次介绍所有这些内容。

概览

Overview Tab

列出了以下统计信息。注意,这些统计信息不会在JobManager丢失后继续存在,如果JobManager故障,则会重置

  • Checkpoint Counts
    • Triggered:自任务开始以来触发的检查点总数。
    • In Progress:当前正在进行中的检查点数量。
    • Completed:自作业开始以来成功完成的检查点总数。
    • Failed:自作业开始以来失败的检查点总数。
    • Restored:自作业启动以来的还原操作数。这还会告诉您自提交以来作业重新启动的次数。注意,带有保存点的初始提交也算作恢复,如果JobManager在操作期间丢失,则重置该计数。
  • Latest Completed Checkpoint:最新成功完成的检查点。单击更多详细信息,可以看到详细的统计信息,一直到子任务级别。
  • Latest Failed Checkpoint:最新失败的检查点。单击更多详细信息,可以看到详细的统计信息,一直到子任务级别。
  • Latest Savepoint:最新触发的保存点及其外部路径。单击更多详细信息,可以看到详细的统计信息,一直到子任务级别。
  • Latest Restore:有两种类型的恢复操作。
    • Restore from Checkpoint:我们从一个定期的检查点恢复。
    • Restore from Savepoint:我们从保存点恢复。

History Tab

检查点历史记录保存关于最近触发的检查点的统计信息,包括当前正在进行的检查点。

  • ID:触发的检查点的ID。每个检查点的id都从1开始递增。
  • Status:检查点的当前状态,可以是Progress()、Completed()或Failed()。如果触发的检查点是保存点,您将看到一个符号。
  • Trigger Time:在JobManager上触发检查点的时间。
  • Latest Acknowledgement:JobManager收到任何子任务的最新确认时间(如果尚未收到确认,则为n/a)。
  • End to End Duration:从触发器时间戳到最新确认的持续时间(如果尚未收到确认,则为n/a)。一个完整的检查点的这种端到端持续时间是由最后一个承认检查点的子任务决定的。这个时间通常比单个子任务实际检查状态所需的时间要长。
  • State Size:所有已确认的子任务的状态大小。
  • Buffered During Alignment:对所有已确认的子任务进行对齐期间缓冲的字节数。如果在检查点期间发生流对齐,这只是> 0。如果检查点模式是AT_LEAST_ONCE,那么它将始终为零,因为至少有一次模式不需要流对齐。

History Size Configuration

您可以通过下面的配置键来配置最近记住的检查点的数量。默认值是10。

# Number of recent checkpoints that are remembered
web.checkpoints.history: 15

Summary Tab

摘要计算所有已完成检查点的最小/平均/最大统计值,包括端到端持续时间、状态大小和对齐期间缓冲的字节(有关这些含义的详细信息,请参阅历史记录)。

注意,这些统计信息不会在JobManager丢失后继续存在,如果JobManager故障,则会重置为。

Configuration Tab

配置列表您的流配置:

  • Checkpointing Mode:Either Exactly Once or At least Once.
  • Interval: 配置的检查点间隔。在这个时间间隔内触发检查点。
  • Timeout: 超时之后,JobManager取消一个检查点并触发一个新的检查点。
  • Minimum Pause Between Checkpoints:检查点之间最少需要暂停。在一个检查点成功完成之后,我们至少要等待这段时间才能触发下一个检查点,这可能会延迟正常的间隔时间。
  • Maximum Concurrent Checkpoints:可以同时进行的检查点的最大数量。
  • Persist Checkpoints Externally:启用或禁用。如果启用,则进一步列出外部化检查点的清理配置(删除或保留取消)。

Checkpoint细节

当您单击检查点的 More details链接时,您将得到所有操作符的最小/平均/最大摘要,以及每个子任务的详细编号。

 

原文地址:https://ci.apache.org/projects/flink/flink-docs-release-1.9/monitoring/checkpoint_monitoring.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值