Jiangxl~-CSDN博客

原创《MySQL DBA封神打怪之路》专栏学习大纲

jiangxl~🔥个人简介🔥CSDN博客专家、51CTO专家博主、阿里云博客专家、华为云享专家、DevOps运维领域优质创作者、2021年度博客之星运维与安全领域TOP1，某厂高级运维工程师擅长Linux系统运维、开源监控软件维护、Kubernetes容器技术、CI/CD持续集成、自动化运维、大规模互联网WEB集群架构、开源软件部署维护等领域。🎉博客领域🎉云原生、云计算、数据库、DevOps运维开发。⭐️获得的奖项⭐️《Kubernetes集群方方面面进阶之路》《阿里云入门到精通实战》...........

2022-07-17 11:32:06 16899 453

原创 Kubernetes集群方方面面实战教程学习线路指南

Kubernetes集群方方面面实战教程学习线路指南学习路线指南欢迎大家来到jiangxl~的《Kubernetes集群方方面面进阶之路》专栏，本文给大家详细列出Kubernetes集群方方面面每一章节文章指南，大家可以根据自己的需求阅读想要学习的文章。本专栏涵盖Kubernetes集群方方面面的技术总结，包括高可用集群、Pod资源、Pod资源控制器、配置存储、数据存储、安全框架等各方面深入解析、Helm包管理机制、Istio网格服务，以及基于Kubernetes集群的CI/CD流程设计及实现，总文章

2021-10-31 11:05:35 79042 218

原创二进制方式搭建Kubernetes高可用集群（超丰富的组件概念理论总结）

二进制方式部署Kubernetes高可用集群文章目录二进制方式部署Kubernetes高可用集群1.环境准备1.1.Kubernetes高可用集群部署方式1.2.Kubernetes集群弃用docker容器1.3.Kubernetes集群所需的证书1.4.环境准备1.5.安装cfssl证书生成工具2.操作系统初始化配置3.部署Etcd集群3.1.使用cfssl证书工具生成etcd证书3.2.部署etcd集群4.部署Docker服务4.1.安装docker4.2.为docker创建systemctl启动脚本

2021-09-23 10:04:38 74541 157

原创基于Kubernetes集群的Jenkins CI/CD版本上线流程部署

基于kubernetes平台的CICD持续集成文章目录基于kubernetes平台的CICD持续集成1.基于k8s集群的Jenkins持续集成2.将Jenkins部署在k8s集群2.1.编写Jenkins namespace文件2.2.编写Jenkins rbac授权文件2.3.编写Jenkins statefulset资源文件2.4.编写Jenkins StorageClass资源文件2.5.编写Jenkins svc资源文件2.6.准备Jenkins镜像并推送至harbor2.7.创建所有资源并查看资

2021-08-23 09:54:12 66197 70

原创部署ELK+Kafka+Filebeat日志收集分析系统

ELK+Kafka+Filebeat日志系统文章目录ELK+Kafka+Filebeat日志系统1.环境规划2.部署elasticsearch集群2.1.配置es-1节点2.2.配置es-2节点2.3.配置es-3节点2.4.使用es-head插件查看集群状态3.部署kibana4.部署zookeeper4.1.配置zookeeper-1节点4.2.配置zookeeper-2节点4.3.配置zookeeper-3节点4.4.启动所有节点5.部署kafka5.1.配置kafka-1节点5.2.配置kafka

2021-08-16 15:16:05 28490 29

原创 Prometheus+Grafana全方位监控Kubernetes集群资源利用率

Prometheus+Grafana全方位监控Kubernetes集群文章目录Prometheus+Grafana全方位监控Kubernetes集群1.k8s监控指标2.k8s基础环境准备2.1.环境准备2.2.部署nfs作为prometheus存储2.3.获取prometheus yaml文件2.4.创建命名空间prometheus3.在k8s中部署prometheus3.1.prometheus-yaml准备3.2.创建rbac资源3.3.创建configmap资源3.4.创建statefulset资

2021-01-06 17:03:20 18958 18

原创 Prometheus+Grafana监控系统配合Cadvisor监控Docker容器

prometheus使用cadvisor监控docker容器1.cadvisor概述一般公司会有很多docker主机，那么就需要对docker进行监控了，docker监控可以采用docker stats配合shell命令来取值做监控，但是无法传递给prometheus进行采集，zabbix监控docker又比较麻烦，因此就有了谷歌的cadvisorcadvisor不仅可以搜集一台机器上的所有运行的容器信息，还提供基础查询界面的http接口，方便prometheus进行数据抓取cadvisor可以对节

2020-12-24 14:43:43 17543 11

原创利用zabbix api批量添加数百台监控主机

利用zabbix api批量添加监控主机在公司规模很庞大的时候，每次都手动添加监控主机将会很麻烦，我们可以利用zabbix的api去批量添加监控主机本次我们将实现用一台主机虚拟出100台主机，并通过api的方式自动添加监控主机有了本次方法，无需要了解python，也不需要写python脚本1.获取批量添加主机的api{ "jsonrpc": "2.0", "method": "host.create", "params": { "host": "192.16

2020-12-18 16:33:32 3101 9

原创下一代智能可观测平台长什么样？来看Bonree ONE的极致演绎！

字化浪潮席卷全球的当下，企业 IT 架构正加速向云原生、微服务化演进。根据 Gartner 报告显示，超过 80% 的企业已将核心业务迁移至云环境，复杂的分布式系统架构带来效率提升的同时，也让运维工作陷入前所未有的困局。日志分散在数十个服务节点，指标数据割裂于不同监控工具， —旦业务出现卡顿，运维人员需在海量数据中 “大海捞针 ” ，平均故障排查时间长达数小时；传统监控工具依赖人工阈值设置，被动响应式告警常导致问题发现滞后，严重影响业务连续性。

2025-06-02 23:55:53 15320 16

原创第38讲：Ceph分布式存储集群部署

初始化Monitor组件需要先安装Monitor组件包，然后利用ceph-deploy工具根据生成的集群配置文件，初始化各个节点中的Monitor组件，形成集群模式，初始化完Monitor组件会在/etc/ceph目录中成一些配置文件和一些key文件，并启动Monitor组件。ceph-deploy：一个快速部署集群的工具，ceph-deploy不再维护，Ceph采用的是Nautilus版本，如果操作系统是CentOS8那么将不支持ceph-deploy方式的搭建。

2024-10-08 09:30:10 2305 2

原创第37讲：Cephfs文件系统的正确使用姿势

Cephfs文件系统至少需要一个MDS（Metadata Server组件）来存储文件系统的元数据信息，因此在使用Cephfs文件存储之前，首先要在集群中部署MDS组件，我们希望Cephfs文件存储具备高可用性，所以MDS组件一般都会在集群中部署多个，大多数情况下都是三个MDS组件。Cephfs支持用户级别和内核级别的挂载使用，可扩展性极高，并且可以同时让多个Client客户端进行读写。

2024-08-19 09:33:29 1558 9

原创第36讲：使用Prometheus监控系统全方面监控Ceph集群

Manager组件的Prometheus模块提供了Ceph exporter客户端程序，会在集群的每一个节点汇总部署Ceph exporter，通过Ceph exporter采集Ceph集群的监控指标，最后由Prometheus监控系统展示监控数据。ID为2842号模板展示的Ceph集群监控数据非常全面，包括集群的状态、读写性能指标、组件数量、PG、OSD等等非常丰富的监控数据展示。主要是在Prometheus中将Ceph exporter组件的地址添加到监控系统中，用于展示Ceph集群的监控数据。

2024-08-15 09:30:46 2089 8

原创第35讲：Manager可视化组件管理Ceph集群

Mgr组件的官方文档：https://docs.ceph.com/en/latest/mgr/Ceph Manager守护进程 (ceph-mgr) 与Monitor守护进程一起运行，为外部监控和管理系统提供额外的监控和接口。ceph luminous版本中新增加了一个组件： Ceph Manager Daemon，简称ceph-mgr。该组件的主要作用是分担和扩展monitor的部分功能，减轻monitor的负担，让更好地管理ceph存储系统。

2024-08-05 08:58:22 1888 12

原创第34讲：KVM虚拟化与Ceph集群的RBD块存储对接

Ceph与KVM对接的官方文档：https://docs.ceph.com/en/quincy/rbd/rbd-integrations/搭建KVM虚拟化平台的前提：机器必须支持硬件虚拟机，Intel VT，ADM-v技术，物理机器确保宿主机开启VT等硬件虚拟化，虚拟机开启嵌套功能。部署KVM之前，首先查看处理器有没有开启虚拟化功能，如下图所示，能搜索出vmx就表示可以开始部署KVM了。VMware虚拟机开启虚拟化。1）安装虚拟化平台2）查看虚拟机列表执行以下命令不报错就说明KVM搭建完成了。2.在KV

2024-07-23 09:27:55 2238 9

原创第33讲：K8S集群StorageClass使用Ceph CSI供应商与Cephfs文件系统集成

K8S StorageClass对接Ceph集群的Cephfs文件系统有两种方法，一种是cephfs-provisioner另一种是cephfs-csi。Cephfs-csi是第三方的客户端程序，部署简单，只需要拉取下来镜像就可以部署成功，而cephfs-provisioner则有很多的故障，相对于对接RBD的存储时，rbd-provisioner非常简单，rbd-csi则有很多故障。

2024-07-09 09:23:55 2332 10

原创第32讲：K8S集群与Cephfs文件系统集成

K8S集群连接Cephfs文件系统时，默认情况下是连接的Ceph集群中默认的Cephfs文件系统，也就是数据资源池为cephfs_data和元数据资源池cephfs_metadata的Cephfs文件系统，并且K8S官方的对接Cephfs的文档中，如果Ceph集群中有多个Cephfs文件系统时，中并没有说明使用什么参数可以指定使用某一个的Cephfs文件文件系统。好在功夫不负有心人，再查阅了大量的资料后，终于找到了可以让K8S各种存储卷指定使用某一个Cephfs文件系统的方法。

2024-07-01 09:21:58 2054 13

原创第31讲：K8S StorageClass使用rbd-provisioner驱动与Ceph RBD块存储集成

rbd-provisioner和csi-provisioner都是StorageClass对接Ceph集群块存储的驱动客户端，CSI客户端部署相对复杂，并且镜像拉取很费力，RBD客户端部署非常简单，相当于开箱即用。无论使用哪种类型的驱动都可以，不过使用RBD客户端时，会遇到一个大坑，如下所示。

2024-06-27 09:32:51 2653 19

原创第30讲：Ceph集群RBD块存储通过CSI客户端与K8S StorageClass集成

StorageClass与Ceph RBD集成的官方文档：https://kubernetes.io/zh/docs/concepts/storage/storage-classes/#rbdCeph对于StorageClass的官方文档：https://docs.ceph.com/en/pacific/rbd/rbd-kubernetes/

2024-06-24 09:28:12 2216 23

原创第29讲：Ceph集群使用RBD块存储设备与K8S的PV集成

RBD（Reliable Block Device）组件是一种构建在RADOS集群之上为客户端提供块设备存储接口接口的中间层，提供的块存储服务可以形成一个裸磁盘，提供格式化、映射的功能，挂载到服务器中。这类的客户端包括虚拟化KVM和云计算OpenStack。RBD组件支持存储空间的动态扩容，也可以借助RADOS实现快照、副本和一致性。通过内核模块rbd.ko将块存储映射成本地的一块磁盘，例如/dev/vdbx等等，可以进行格式化和分区。通过librbd接口，KVM虚拟化就是使用这种接口。

2024-06-19 09:16:53 1997 19

原创第28讲：Ceph集群使用RBD块存储与K8S Volumes集成

VolumeVolume持久化有三种类型分别是EmptyDir、HostPath、NFS。Volume是K8S集群中较为简单的数据持久化方案，无需创建其他资源，直接在Pod资源编排文件中声明Volume卷，即可挂载使用。PV、PVCPV和PVC是一种高级类型的持久化存储费方案，PV负责与底层存储系统进行对接，PVC从PV中分配一定的资源，最后由PVC挂载到Pod中。

2024-06-17 09:07:30 3390 18

原创第27讲：Ceph存储集群高可用性与性能压测实战

当停掉ceph-node-2节点中的Monitor组件后，集群状态就开始显示WARN了，提示集群中有一个Monitor组件已经宕掉，现在可用的Monitor组件还剩下ceph-node-1和ceph-node-3等节点，并且挂掉的ceph-node-2节点已经不再仲裁节点列表中了，当前在仲裁列表中的节点只剩下了ceph-node-1和ceph-node-3。2）for循环写入数据的同时，停掉ceph-node-2节点的MDS组件，观察MDS主从切换一瞬间，对于数据写入的影响。

2024-06-13 10:37:11 1793 14

原创第26讲：Ceph集群OSD扩缩容中Reblanceing数据重分布

在实际生产环境中，如果PG中的数据量非常大，在触发Reblanceing机制时，会对集群的性能有所影响，如果一次性增加很多个OSD节点，那么就意味着会有大量的PG被移动，此时就会对集群的性能产生巨大的影响，因此建议，每次在扩容OSD时，只扩容一个OSD。在扩容前集群有两个OSD节点，这两个OSD中分布着十个PG，扩容后，集群中有三个OSD节点，此时就会触发Reblanceing数据重分布机制，将原有的两个OSD中的一部分PG移动到第三个OSD中，使的每个OSD中的PG数量均衡。

2024-06-11 09:13:53 1931 20

原创第25讲：Ceph集群OSD存储扩容方案及实践指南

ceph-node-1节点已经有3个OSD，一个硬盘就对应一个OSD节点。这条命令其实就是执行了一个dd命令，将硬盘的数据清空。

2024-06-05 09:27:14 1198 12

原创第24讲：Ceph集群RGW对象存储高可用集群部署与测试

停掉ceph-node-1节点的Haproxy服务后，Keepalived随之就检测到Haproxy的服务异常了，并且自动将优先级下降20，原本主节点keepalived的优先级为100，备用节点的keepalived优先级的为90，主节点下降20后，优先级变成了80，优先级比备用节点低，此时备用节点就认为自己是主节点，从而抢占了主节点的VIP地址，并将自己升级为了主节点，此时的主节点也知道优先级比它低，故而放弃主节点和VIP地址。1）停掉ceph-node-1节点的Haproxy服务。

2024-06-03 09:13:07 2238 27

原创第23讲：Ceph集群RBD块存储的离线备份与还原

在前面，是直接将整个块设备进行备份和还原的，长期下来，数据量会很大，磁盘的增长速度也会很快，RBD块存储的导入导出功能还提供了增量机制，可以通过增量导入导出，只将变化的数据进行备份导出，还原时，需要先还原一个全量的备份，然后根据增量的周期，一个一个的还原到集群中。在前面是通过快照的形式备份RBD块存储设备的，但是快照只能在集群内部进行使用，当整个集群出现故障时，快照还原将无法使用，另外如果想将数据迁移到另一个Ceph集群，快照也是无法实现的，因此就有了RBD存储的离线备份。

2024-05-29 10:36:38 1753 22

原创第22讲：RBD块存储COW克隆解除父子镜像的依赖关系

在前面使用copy-on-write机制基于快照做出来的链接克隆，与快照依赖性很强，如果快照损坏或者丢失，那么克隆的镜像将无法使用，使用这个镜像创建的虚拟机也会就此瘫痪，虽然可以对快照进行保护，但是也不可能做到百分百的保证，一旦快照丢失，产生的影响面将会非常广。在RBD块存储中提供flatten机制，可以解除克隆的镜像与快照的父子关系，相当于将克隆的镜像独立出来，解除父子关系后，相当于是完整克隆了，会占用更多的空间。

2024-05-27 09:02:26 672 8

原创 Ceph集群RBD块存储：快照与Copy-on-Write克隆的基本操作

链接克隆是基于父镜像（快照）中快速创建出来的一个链接镜像（写时复制镜像），链接镜像读取数据是从父镜像中进行的，写数据是在链接镜像中进行的，通过链接克隆可以快速的克隆出很多个镜像，并行这些镜像都可以直接使用。copy-on-write机制其实就是将一个快照快速克隆成了一个写时复制镜像，快照是只读的，写数据都是在克隆的镜像里进行的，使用这个克隆的镜像就可以快速创建出虚拟机。父镜像都是只读类型的，将块设备进行快照的创建和保护快照，就可以创建出任意数量的写时复制克隆，也就是链接镜像。尝试删除快照，发现无法删除。

2024-05-24 10:35:25 1571 9

原创第20讲：Ceph集群中RBD块存储的回收站机制与快照备份还原详解

快照是在特定的时间点对数据进行一次备份，就相当于照相机与照片的概念，拍照也是在特定的时间点，拍摄下来这个时间的事务，而快照也是在某个时间点，对数据的状态进行保留，当数据丢失时，可以通过这个快照来还原某一时刻的数据。RBD块存储的回收站和我们理解的回收站是一样的理念，当块存储中的数据被删除后，提供一个临时的回收站，先将数据移动到这个回收站里，回收站也有一定的周期策略，当超过回收站数据保留的周期后，数据才会被彻底删除。查看回收站中的数据时需要指定数据所在资源池名称，相当于是在这个资源池下创建的回收站。

2024-05-21 10:09:38 1329 13

原创第19讲：Ceph集群CrushMap规则定制与调优：从基础到高级应用

现在集群中有8个OSD，其中四个OSD是ssd的磁盘，另外四个OSD是hdd的磁盘，接下来我们会定义两套CrushMap规则，根据数据的重要性分别应用不同的CrushMap规则。规则名称：ssd_data该CrushMap规则会关联各个Ceph节点上类型是ssd磁盘的OSD，OSD的磁盘类型可以在Class类中定义，该条CrushMap规则会与ssd_rule角色进行关联，将数据重要性较高的Pool资源池应用ssd_rule这个角色，就可以将数据只落在ssd类型的OSD中。

2024-05-10 10:36:38 1502 21

原创第18讲：Ceph集群CrushMap的核心概念、默认规则与完整定义

CrushMap官方文档：https://docs.ceph.com/en/pacific/rados/operations/crush-map/Ceph集群数据写入流程，最终是通过Crush算法将数据落入到OSD中，使用Crush算法来存储和管理数据，相当于智能的数据分发机制。Ceph可以通过Crush算法准确的计算出数据应该存储在哪里，也可以计算出从哪里读取数据。Crush算法就是依据配置的Crush Map规则策略，将数据路由到对应的存储点。如下图所示，一份数据被拆成多个Object对象，这些Obje

2024-05-06 09:55:14 1004 9

原创第⑰讲：Ceph集群各组件的配置参数调整

Ceph集群中各个组件的默认配置参数并没有配置在配置文件中，因为Ceph部署方式很特别，ceph.conf文件是以ceph-deploy工具推送到各个服务器的，Ceph集群各个组件的配置文件以sock方式存放在/var/run/ceph这个路径中。永久修改配置参数，就是将要调整的配置参数写入到ceph.conf文件中，然后使用ceph-deploy工具推送到集群各个节点，最后重启所有节点的该组件即可。命令指定组件的sock文件，去查询、修改某个组件的配置参数。以mon组件为例演示查看和修改配置参数的方法。

2024-04-26 09:41:39 1080 9

原创第⑯讲：Ceph集群Pool资源池管理以及PG的数据分布的核心技术要点

如果一个Pool资源池中的PG数量很多，就意味着会通过CRUSH算法将Object数据分散写入到更多的OSD中，数据分散存储在OSD的数量越多，对于数据的安全性就越高，相反，如果Pool中的PG数量过少，那么通过CRUSH算法将数据分散存储到OSD的数量就越少，数据的丢失概率就会很高。在使用公式计算PG的数量时，建议使用OSD*200，可以方便后期的数据量的扩展，随着数据量的增长，PG的数量也需要增长，如果一开始设置的数量很多，再后期就不需要扩容了。例子：集群有200个OSD，Pool资源池的副本数为3。

2024-04-23 09:25:33 2236 21

原创第⑮讲：Ceph集群管理与监控操作指南

命令可以查看集群中每个OSD的资源利用率，包括使用率和可用空间的大小，以及OSD的状态，通过此命令可以观察OSD的空间剩余，如果OSD的空间不足，也会导致集群出现问题，当OSD空间不足时，可以扩容OSD或者删除上层文件来解决。命令可以看到集群的资源利用率，会显示出Ceph集群的总空间容量、剩余容量、使用的容量，还会显示出集群中Pool资源池的利用率。通过集群状态信息可以看到集群的健康状态、各个组件的运行状态以及数据使用情况。类似于tail命令，持续变化刷新集群的状态信息。

2024-04-17 09:29:57 4659 19

原创第⑭讲：Ceph集群管理：守护进程管理、日志管理和端口号配置

官方操作文档：https://docs.ceph.com/en/pacific/rados/operations/operating/带@符号的都是可以对一个主机或者某一个组件进行管理操作，以target结尾的都是全局性质的。快速记忆：带target的表示管理所有该组件的进行，带@的表示管理单一组件。这几种方式中，循序渐进，越来越细微划分，从整体到分组到单体到个体。Ceph所有组件的守护进程：ceph.target。Ceph组件守护进程管理是通过。

2024-04-15 09:50:56 7834 31

原创第⑬讲：OSD硬盘故障处理实战：从诊断到恢复的全流程指南

如果硬盘出现了坏道的情况，就会影响整个集群的性能，从而拖垮整个Ceph集群，遇到这种情况执行上述命令不会显示down的状态，因为磁盘出现了坏道，磁盘还是可以用的，只不过性能有所下降。OSD从集群中踢出时，也会触发Reblanceing数据重分布机制，将OSD中的数据迁移到其他的OSD中，当OSD的数据全部同步完成后，再将OSD彻底移除。将故障的OSD硬盘修复好之后，将该盘的LVM卷删除，然后通过添加OSD的方式，将该OSD重新加入集群即可。原来集群中有8个OSD，选择已经变成7个OSD了，删除成功。

2024-04-11 09:27:15 1531 17

原创第⑫讲：Ceph集群OSD扩缩容中Reblanceing数据的重分布

2024-04-09 09:40:04 1395 16

原创第⑪讲：Ceph集群OSD扩容方案及实现横向和纵向扩容

ceph-node-1节点已经有3个OSD，一个硬盘就对应一个OSD节点。这条命令其实就是执行了一个dd命令，将硬盘的数据清空。

2024-04-07 09:36:36 1340 23

原创第117讲：深入MySQL性能优化：从多个角度提升数据库性能

一般情况下，IO要和CPU参照对比分析，CPU高的情况下，IO也会很高，如果CPU的wait很高，IO很低，那么有可能就是磁盘出问题，如果CPU的sys很高，IO很低，那么可能就是数据库层面出问题，可能是锁，需要进一步的分析和判断。，如果服务器的并发请求量比较大，可以去调高这个值，当然是要在服务器能够承受的压力下，去调整这个参数的值，随着连接数越来越多，MySQL会为每个连接提供缓冲区，就会导致开销越来越多的内存，对于连接数这个值不能随便去调高。

2024-04-03 09:16:04 2011 29

原创第116讲：使用Mycat-eye管理Mycat数据库服务

Mycat-web(Mycat-eye)是对mycat-server提供监控服务，功能不局限于对mycat-server使用。他通过JDBC连接对Mycat、Mysql监控，监控远程服务器(目前仅限于linux系统)的cpu、内存、网络、磁盘。

2024-04-01 09:43:38 1903 35

原创第115讲：Mycat核心配置文件各项参数的作用以及概念

在Mycat中核心的配置文件有schema.xml和rule.xml以及server.xml三个，其中schema.xml是用来配置数据库、表、读写分离、分片节点、分片规则等信息，rule.xml主要是用来定义拆分表的规则，server.xml包含了mycat的系统配置信息。在user标签中主要是配置那些用户可以登陆到Mycat，该用户必须在数据库中存在，并且可以配置用户针对逻辑库、逻辑表的一些权限，如果同时对逻辑库或者逻辑表都设置了权限，那么逻辑表的权限大于逻辑库的权限。

2024-03-28 09:22:49 1805 15