- 博客(136)
- 收藏
- 关注
原创 MNIST是什么?
创建一个YAML文件(例如pod.yaml),用于定义训练任务Pod。将上面步骤中的配置整合起来,并确保image字段使用你推送的镜像URI。通过以上步骤,你应该能够在自己的K8s集群上成功运行MNIST训练任务。这个过程涵盖了从环境准备、任务定义到任务部署的核心步骤。
2025-11-05 15:51:20
760
原创 初识CUDA和cuDNN
作为运维人员,理解CUDA和cuDNN对于管理GPU训练环境至关重要。安装CUDA工具包2. cuDNN安装下载和安装🐳 在K8s环境中的配置1. 节点准备和检查节点标签和污点安装NVIDIA设备插件2. 容器镜像构建基础Dockerfile示例3. K8s资源定义GPU Pod配置🔧 运维维护指南1. 版本兼容性管理版本兼容性矩阵框架版本CUDA版本cuDNN版本驱动版本PyTorch 2.0+11.7/11.88.5+515.6
2025-11-05 14:27:31
899
原创 kubectl 的taint和cordon命令区别
命令核心思想给你的建议临时隔离。为了“清空”节点做准备。当你需要重启、升级或维护某个节点时,第一个想到的就应该是它。记住cordon -> drain -> 维护 -> uncordon这个标准流程。永久规则。定义节点的“特殊身份”和“准入条件”。当你需要规划集群架构,比如区分出主节点、GPU节点、高IO存储节点时,使用它。它需要和 Pod 的配合使用。
2025-11-04 16:11:35
1068
原创 ubantu系统拷贝exfat格式文件
我自己有一个exFAT格式的移动硬盘,里面有一些数据需要拷贝到我的ubantu系统服务器,目前已经将移动硬盘插到了我的服务器的usb口,接下来就给大家讲解挂载和拷贝的操作。
2025-11-04 14:33:36
776
原创 初识Kubernetes Operator
Operator模式是Kubernetes声明式API和控制器模式的强大延伸。对于运维复杂的有状态应用来说,它是一个极具价值的工具。从使用开始:先熟练使用OperatorHub上的成熟Operator,理解其行为。选择合适框架:当需要自研时,(或功能相似的)是你的首选。核心是调和循环:编写Operator的关键在于理解并实现好Reconcile函数,不断对比"期望状态"和"实际状态",并驱动系统向期望状态收敛。本文来源于我的微信公众号Linux运维小白,我会持续更新文章,欢迎大家关注,互相交流学习。
2025-10-28 15:02:30
1168
原创 初识Terraform
Terraform是由HashiCorp创建的一款工具。简单来说,它允许你通过编写人类可读的配置文件,来定义和管理你需要的各种基础设施资源(如虚拟机、网络、数据库等)。它的核心特点是。这意味着你只需要在配置文件里声明你的基础设施最终状态是什么样子(例如:“我需要两台云服务器”),而无需一步步写下具体的创建指令。Terraform会自动帮你完成从当前状态到期望状态的转换。
2025-10-28 10:37:02
764
原创 初始redis
Redis作为一款高性能的内存数据存储系统,在现代应用架构中扮演着重要角色。从简单缓存到复杂分布式系统,Redis都能提供出色的解决方案。作为运维人员,掌握Redis的核心概念、部署配置、日常操作和性能优化,对于构建稳定高效的系统至关重要。本文来源于我的微信公众号Linux运维小白,我会持续更新文章,欢迎大家关注,互相交流学习。
2025-10-20 14:10:16
732
原创 使用mycat实现mysql读写分离
通过以上步骤,你应该已经成功配置了MyCat实现MySQL一主一从的读写分离。正确配置MySQL主从复制作为基础合理设置balance参数(一主一从推荐使用"3")理解MyCat的配置结构,特别是schema.xml中的dataHost配置掌握基本的故障排查方法作为运维新手,建议先在测试环境充分验证,然后再部署到生产环境。MyCat的读写分离能够有效降低主库负载,提升数据库系统的整体性能。本文来源于我的微信公众号Linux运维小白,我会持续更新文章,欢迎大家关注,互相交流学习。
2025-10-17 14:07:05
889
原创 mysql主从同步搭建
简单来说,就是把一台MySQL数据库服务器(称为主库,Master)的数据,复制到一台或多台其他的MySQL服务器(称为从库,Slave)上。主库(Master):负责处理所有的写操作它是数据的源头。从库(Slave):负责复制主库的数据,并主要处理读操作(SELECT)。它是主库的“镜像”或“备份”。这个复制过程是异步的,意思是主库执行完写操作后,会立刻给客户端返回成功,然后再“悄悄地”将数据的变更同步给从库。所以从库的数据和主库的数据之间存在一个微小的延迟。接下来我们详细介绍搭建过程。
2025-10-17 11:04:50
960
原创 快速入门docsify
Docsify是一款,特别适合快速搭建文档网站或个人知识库。它无需生成静态HTML文件,所有转换都在运行时进行,让你可以专注于用Markdown写作。
2025-10-16 13:56:55
982
原创 使用helm创建属于自己的chart
创建 Chart -> 定制配置与模板 -> 调试验证 -> 管理部署。作为新手,从修改默认 Chart 开始,逐步理解模板和值文件的工作原理,再尝试为不同环境定制配置。本文来源于我的微信公众号Linux运维小白,我会持续更新文章,欢迎大家关注,互相交流学习。
2025-10-16 10:14:33
858
原创 如何快速上手helm
阶段核心命令/概念目标入门学会安装和卸载应用核心--set掌握应用配置定制高阶模板语法、依赖管理、Hooks、测试、库Chart实现复杂、自动化、企业级的应用部署和管理本文来源于我的微信公众号Linux运维小白,我会持续更新文章,欢迎大家关注,互相交流学习。
2025-10-15 15:18:35
1309
原创 初识自动化运维利器ansible-role
Ansible Role 的产生,是 Ansible 从"脚本工具"迈向"自动化框架"的关键一步。封装与抽象:将复杂的实现细节隐藏起来,只暴露清晰的接口(变量)。模块化与复用:像搭积木一样构建你的基础设施代码。标准化与协作:为 Ansible 社区(Ansible Galaxy)提供了共享和分发自动化代码的基础。本文来源于我的微信公众号Linux运维小白,我会持续更新文章,欢迎大家关注,互相交流学习。
2025-10-14 14:06:46
1078
原创 小白都能入门上手的ansible基础知识
Ansible是一个简单的自动化运维管理工具,它能配置系统、部署软件、编排更复杂的IT任务。Ansible用Python编写,默认使用SSH进行远程连接,无需在被管理节点上安装附加软件。
2025-10-14 11:30:17
1189
原创 kubeadm与RKE2使用区别
RKE2 通过“约定大于配置”的方式,帮我们处理了很多繁琐的细节,让我们能更专注于应用本身。核心习惯忘掉手动修改组件参数,一切通过来配置,并通过systemctl来管理服务。可参考官方文档(https://docs.rke2.io/),里面写得非常详细。遇到具体问题时,先检查服务状态和日志,大部分问题都能很快定位。本文来源于我的微信公众号Linux运维小白,我会持续更新文章,欢迎大家关注,互相交流学习。
2025-10-13 15:14:31
867
原创 RKE2上手指南:从零搭建K8S集群
通过本指南,你应该已经掌握了RKE2的基本概念、安装方法和日常管理操作。作为一款安全、合规且易于运维的Kubernetes发行版,RKE2大大降低了Kubernetes集群的管理门槛,让运维人员能够更专注于业务应用而非底层基础设施。建议你在测试环境中多次练习安装和配置过程,熟悉常见问题的解决方法,然后再在生产环境中部署。随着经验的积累,你将能够更深入地理解RKE2的各个方面,并充分发挥其在容器化应用管理方面的优势。本文来源于我的微信公众号Linux运维小白,我会持续更新文章,欢迎大家关注,互相交流学习。
2025-10-13 11:53:28
1822
1
原创 一文搞懂supervisord是什么?
Supervisor 是一个用 Python 编写的进程管理工具,用于监控和控制类 Unix 系统上的进程。它能确保进程持续运行,并在意外崩溃时自动重启。
2025-10-11 16:52:16
1104
原创 windows部署本地deepseek
近年来,人工智能领域呈现爆发式增长,深度学习等技术不断取得突破,在自然语言处理、图像识别等众多领域展现出巨大的应用潜力和商业价值,成为全球科技竞争的焦点。大语言模型作为人工智能的重要分支,发展迅速,OpenAI 的 GPT 系列等模型的成功,让业界看到了大语言模型在推动人工智能发展和应用变革方面的巨大力量,为DeepSeek的诞生提供了技术发展的大方向和参考范例。同时,随着硬件技术的不断进步,尤其是 GPU 等高性能计算芯片的发展,为大规模数据处理和复杂模型训练提供了强大的计算支持。
2025-02-07 15:50:42
1405
原创 prometheus监控数据远程写入Kafka集群
根据项目要求,需将prometheus监控数据存储到kafka中。前面为了图方便就搭建了单机版的kafka进行验证,但是kafka中一直没有数据,后来部署了kafka集群,才解决了这个问题。将prometheus监控数据写入到kafka中,大多数都是使用prometheus-kafka-adapter插件,当然如果条件允许,也可以自己开发。#1 系统版本#2 可通外网至此,prometheus监控数据推送到kafka集群验证完毕,大家如果有什么疑问,请及时和我沟通交流。
2024-11-18 12:41:39
1539
3
原创 kafka集群部署搭建【详细版】
因项目需要,需搭建kafka集群进行验证工作。系统环境真的很重要,这会影响排查问题的效率。但是大部分博客编写的时候基本上都没有记录这些,这就会导致有些命令不是共通的。#1 系统版本#2 jdk版本至此,kafka集群搭建完毕,大家如果有什么疑问,请及时和我沟通交流。
2024-11-18 11:42:57
4202
原创 kube-prometheus数据持久化
之前负责的prometheus项目大都是在物理机器上面部署的,修改配置啥的还比较简单。最近应客户要求,需要将k8s中的prometheus数据做持久化,于是在网上查了一些资料,然后记录了操作步骤和大家分享。kube-prometheus监控默认的数据存储方式为emptyDir。因为emptyDir和pod的生命周期相同。当pod重启时保存的监控数据也会随之消失,并不适用于保存数据,需要改为持久化的存储方式。
2024-10-28 15:42:41
922
原创 【helm快速入门】
Helm 最初是由 Deis(后被微软收购)团队开发的项目。当时,Deis 团队将其基础架构从原有的平台转移到 Kubernetes 上,需要一个工具来简化在 Kubernetes 上安装和管理应用的流程。于是,他们借鉴了 Homebrew、apt 和 yum 等包管理器的理念,开始研发 Helm。其初衷是让用户能够更方便地打包和安装自己的应用到 Kubernetes 集群中。
2024-09-25 17:25:04
1036
转载 linux-screen命令使用
有时候我们需要在服务器上执行一个可能耗费几天或者更长时间的命令或脚本,在此过程中,如果中途断网或者远程服务器SSH超时断开,可能就会出现“前功尽弃”的局面,为了有效解决这种场景问题,我们的主角screen就闪亮登场了。screen 是一个在Unix和类Unix系统上的终端复用工具。以上就是使用screen的相关步骤和方法。
2024-09-20 11:25:13
914
原创 K8s --The connection to the server 192.168.56.120:6443 was refused报错解决
自己本地虚拟机有一套使用kuebadm部署的3节点k8s集群,因为很长时间不使用了,今天登陆后在使用kubectl命令时一直报。既然已经定位到是证书过期的问题,那接下来就针对证书过期进行解决。再次使用kubectl命令,看看问题是否解决。错误,接下来就将解决的整个过程分享给大家。操作系统信息以及k8s集群版本信息请看下面。至此,问题得到解决。
2024-07-17 14:45:15
1879
原创 k8s的error: metrics not available yet问题处理
根据图表,我们的k8s版本是1.23,因此我们使用metrics-server:v0.6.4。因项目要求,需在k8s集群中使用 kubectl top node命令,但是一直报。为了更好的复现问题,我们将本次解决问题的步骤整理如下。k8s部署方式:kubeadm。k8s版本:v1.23.5。
2023-11-15 18:00:34
2425
原创 elasticsearch集群部署搭建(一)
它能很方便的使大量数据具有搜索、分析和探索的能力。它目前被广泛地使用于各个 IT 公司。我这里选择的是1.8.0_271,JDK的安装步骤这里不做讲解。应项目需要,我这里下载的是elasticsearch-7.6.2。至此,es集群部署搭建完成,当前存在一个问题就是**JDK与es的版本兼容性,我只截取了部分,完整请。Elasticsearch 是一个。如何为es集群添加访问密码**。
2023-07-13 00:11:36
2453
1
原创 Oracle VM VirtualBox配置网络
背景描述因为Oracle VM VirtualBox比Vmware占用内存小,更轻量,因此一直使用Oracle VM VirtualBox。由于对网络配置关注不多,经常出现下面的情况:虚拟机能ping通宿主机,但是宿主机不能ping通虚拟机的情况虚拟机不能上外网不能设置静态网络通过翻网上的博客,大部分都是说设置nat网络和host only,但是这种场景不适合自己的业务,因此就决定试试其他的方式。设置nat网络第一步:点击管理—》全局设定第二步:设置网络第三步:设置NAT网络明细
2021-12-25 22:11:26
9417
6
原创 kubernetes 报scheduler Unhealthy的错误解决
项目背景近来因项目需要,需使用k8s做相关的运维,因此通过sealos一键安装,在使用查看集群健康状态命令时[root@k8s1 manifests]# kubectl get cs报了下面的错误:Warning: v1 ComponentStatus is deprecated in v1.19+NAME STATUS MESSAGE
2021-12-24 15:42:04
3508
3
原创 docker离线导出导入镜像遇到的问题
1、背景描述自己的本机电脑安装了虚拟机,然后虚拟机中装有项目用到的最新镜像文件服务器也是linux系统,但是安装在内网的环境中,不可上外网2、需求描述将本机虚拟机的镜像文件导出,然后上传到服务器中并导入3、操作步骤打开本机的虚拟机导出镜像,并上传到服务器#查看都是有哪些镜像docker images#导出镜像docker save -o test.tar(根据自己的情况起名字) XXXXX(REPOSITORY下你的镜像名称):latest(对应TAG下的值)#赋予权限chm
2021-06-11 15:43:23
1137
1
原创 Java程序调用Docker命令并获取输出
场景描述:开发一个可以在服务器调用Docker命令的Java程序,然后打成jar,丢到服务器跑代码编写
2021-05-28 19:53:25
1982
2
原创 如何使用curl命令代替postman发送Json格式的POST请求
需求描述:测试一台主机A与另一台主机B是否连通,并且查看返回的信息是否正确的?需求背景主机A是Linux服务器(如果主机A是windows系统,那么可以直接使用Postman工具,因此思考使用curl命令)解决办法curl -H "Content-Type:application/json" -H "XXXX:XXXX" -X POST --data '{"Key": "Value"}' ip地址注意:一个-H指定一个头字段信息,如果有多个,写多次 --data 后面的信息
2021-05-27 14:51:56
986
原创 解决集群报failure to login: for principal 。。。。Unable to obtain password from user错误
一、问题复现在做集群项目运行时,报了如下错误:org.apache.hadoop.security.KerberosAuthException: failure to login: for principal: dal_pro/nm-bigdata.local from keytab /etc/security/keytabs/dal_pro.keytab javax.security.auth.login.LoginException: Unable to obtain password fro
2021-05-11 16:29:12
8851
原创 开发Flink本地WordCount程序(Java)问题总结
在刚接触Flink时,踩了很多坑,接下来就把自己的遇到的问题和大家分享:首先分享正确的过程:1、在idea中新建maven项目,在pom.xml文件中导入依赖 <dependency> <groupId>org.apache.flink</groupId> <artifactId>flink-streaming-java_2.11</artifactId>
2021-04-09 11:40:45
453
原创 centos7启动时报VMware Tools 启动脚本未能在虚拟机中成功运行。如果您在此虚拟机中配置了自定义启动脚本,请确保该脚本没有错误。您也可以提交支持请求,报告此问题
centos7报错误的页面如下:解决途径:#先执行下面的命令sudo yum autoremove open-vm-tools #再执行下面的命令sudo apt-get install open-vm-tools-desktop #重启机器reboot
2020-12-17 10:49:52
3341
3
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅