计算节点相关 生产化集群的考量 操作系统选择 操作系统的评估与选择 生态系统与成熟度 云原生的原则 Atomic 最小化主机操作系统 操作系统构建流程 ostree 构建ostree 加载ostree 操作系统加载 生产环境遭遇过的陷阱 节点资源管理 NUMA NODE 节点资源管理 状态上报 Lease 资源预留 Capacity 和 Allocatable 节点磁盘管理 驱逐管理 资源可用额监控 驱逐策略 基于内存压力的驱逐 基于磁盘压力的驱逐 容器和资源配置 CPU CGroup 容器和资源配置 内存CGroup配置 OOM Killer行为 日志管理 Docker卷管理 网络资源 进程数 节点异常检测 Kubernetes集群可能存在的问题 node-problem-detector 故障分类 问题汇报收到 实践 使用插件pod启用NPD NPD的异常处理行为 常用节点问题排查手段 ssh到内网节点 查看日志 基于extended resource扩展节点资源 扩展资源 管理扩展资源 为节点配置资源 使用扩展资源 集群层面的扩展资源 构建和管理高可用集群 Kubernetes高可用层级 高可用的数据中心 Node的生命周期管理 主机管理 生产化集群管理 企业公共服务 控制平面的高可用保证 高可用集群 集群安装方法比较 用Kubespray搭建高可用集群 基于声明式API管理集群 Kubernetes Cluster API 参与角色 涉及模型 用cluster api 管理集群 KubeadmControlPlane MachineDeployment MachineHealthCheck 日常运营中的节点问题归类 故障检测和自动恢复 Cluster Autoscaler 工作机制 Cluster Autoscaler架构 Cluster Autoscaler的扩展机制 附加资料 集群管理实践案例分享 集群管理实践案例分享 声明式集群配置 声明式扩容 声明式持续发布 多租户集群管理 租户 认证-实现多租户的基础 隔离 租户隔离手段 权限隔离 Quota管理 节点资源隔离