- 博客(858)
- 资源 (7)
- 收藏
- 关注
原创 [kubernetes]-k8s修改local-path-provisioner创建的pv名称
导语:local-path-provisioner提供的storage 创建的pv名称是比较难以识别的,希望进入pv还得确认一下。我希望能够更好辨识一些。最终的镜像测试直接替换yaml中的镜像就可以让最终的pv名称显示更友好了。local-path-provisioner的日志。修改controller.go,调整1417行为。pvc-${pcv_name}并切换到tag 0.0.23。再以新的Dockerfile构建。
2024-08-29 11:15:37 194 1
原创 [问题已处理]-k8s单节点容器间无法通讯排查
调整2台防火墙规则一致后,容器间依旧没法通讯,执行上面命令可以临时生效,但是重启后又会无法通讯。另一台正常的机器重启后依旧可以正常通讯。导语:2台服务器,一台机器单节点的k8s启动正常,另一台单节点k8s会crash,日志是pod之间无法通讯。安装过程中,执行下面命令时有异常,导致规则没有全部报错。后续发现是开机未执行命令。
2024-08-29 11:13:22 281
原创 [问题已处理]-k8s ingress启动报80被占用后续
导语:ingress nginx报错80端口无法被bind后续。目前遇到过3次,此次无论重启还是重置k8s均会提示80的问题。官方的error没打印。是listen失败,但上层调用时就是认为是 port already in use。使用root用户测试,或者可以尝试删除镜像重新导入。后续排查到官方的troubleshooting.md,猜测可能是权限掉了的问题。现场问题临时使用nodePort + nginx80的方式先提供了服务。经查使用nc -l 80 可以使用80,证明端口并未被占用。
2024-08-29 11:12:13 771
原创 [问题已处理]-k8s设置了--fail-swap-on=false但是启动依旧报错不支持swap
验证是否为系统版本22.04.1 > 22.04.4和内核版本升级5.15.0-43-generic > 5.15.0-107-generic造成的。后续验证暂时排除对应原因。原因看着像是Environment里的配置无法被识别到,其他机器是没问题的。采用手动启动服务是不会报错swap的。导语:kubelet启动突然报错不支持swap了。看内核和系统版本有自动更新。
2024-08-29 11:10:34 241
原创 [问题已处理]-ufw加入新规则之后ufw reload报错ERROR initcaps
需要执行下面的命令重新添加防火墙规则。注意可能会导致ssh掉线,建议直连服务器操作。导语:ufw加入新规则之后ufw reload报错ERROR: initcaps。
2024-08-29 11:09:49 299
原创 [linux]-tar输出当前解压进度或解压中文件的进度
这条命令是一个复杂的 shell 命令,用于计算指定文件的打开百分比。对于镜像导入都不行。
2024-08-29 11:07:20 489
原创 [问题已处理]-麒麟V10SP2安装k8s初始化后coredns报错No such device or address
导语:银河麒麟高级服务器操作系统 V10 SP2 aarch64 安装k8s时coredns报错No such device or address。这回启动之后coredns日志一直报错still waiting kubernetes。最终调整docker配置和初始化参数,使用cgroupfs。试了官方sp1的方法。
2024-08-29 11:06:14 421
原创 [问题已处理]-ctr镜像导入报错failed to create snapshot- missing parent bucket- not found
导语:今天发现执行脚本版本升级的时候。原先存在的镜像导入报错failed to create snapshot: missing parent,但是镜像没有变更果。只需要执行下下面的命令就能正常了。排查之后发现,脚本修改了。
2024-08-27 16:18:16 418
原创 [问题已处理]-dpkg- error processing package mysql-server-5.7 --configure
导语:mysql5.7.2x升级到5.7.33的时候报错。直接在bash的下一行 增加。查看其实已经升级成功了。
2024-08-27 16:17:21 285
原创 [问题已处理]-通过shell创建wiki里的页面,并把日志文件的内容贴进去
贴一下上传安装和质检日志的shell,通过for循环导出日志,并替换掉其中的特殊字符避免提交出现500。并根据关键字对颜色进行调整。导语:希望通过shell创建wiki里的页面,并把日志文件的内容贴进去。通过脚本把文件123的内容更新到page中。目前version是写死的。Basic后面跟的是base64转码后的。shell命令实现如下。重复名称就会提示400。
2024-08-27 16:16:31 243
原创 [问题已处理]-k8s让job在重启后再执行
的时间来判断是否为开机。为了确保k8s正常运行,大致设置了15分钟。因为重启之前进行下载解压安装,肯定超过半小时。等reboot之后,job的策略会再次运行。并让其他job等待这个job执行完毕,来夯住整个流程。导语:希望设计一个job,首次重启后再执行。这个initcontainer。配合shutdown命令使用。
2024-08-27 16:14:40 284
原创 [linux]-shell不使用expcect实现简单的脚本交互
导语:希望实现脚本交互安装。但是又不喜欢用expcect。以下脚本适用于固定交互方式,切交互简单的。,交互依次输入1;以下是GPT给出的建议。
2024-08-27 16:13:44 147
原创 [kubernetes]-helm通过hook在upgrade前清理job
当我们使用before-hook-creation的时候,job资源会在存在的情况下先删除,再次创建。避免因为不能修改而中断。导语:当我们使用helm upgrade时,job资源会因为不能修改而中断。初次执行时job名称似乎没有显示,重复执行几次之后查看job名并无问题。yaml添加部分为annotations块。并未经详细验证和测试。
2024-08-27 16:12:02 242
原创 [kubernetes]-k8s使用velero备份恢复采用minio和oss
Velero 阿里云插件地址:https://github.com/AliyunContainerService/velero-plugin 4-5年前的了。确认已经开通oss功能,并创建bucket ,名为opes-velero-back https://oss.console.aliyun.com/overview 关闭阻止公共访问。Velero 项目地址:https://github.com/vmware-tanzu/velero。找了2台不同的服务器试了下 A备份去B恢复没问题。
2024-08-27 16:08:53 360
原创 [kubernetes]-k8s网络排查利器nsenter
验证是否已经进入容器网络。在nsenter中telnet localhost 2181是可以的。但是有缺陷,无法用service名称通讯。需要手动修改/etc/resolv.conf。导语:看到有用nsenter在docker运行时的情况下,排查网络问题的脚本。学习了一下顺便增加了一个containerd版本。containerd版本。
2024-08-27 16:06:54 315
原创 [问题已处理]-CVE-2024-6387漏洞修复
非滚动发行版都是 patch 支持的版本而不是直接升级到最新,比如 Debian (1:9.2p1-2+deb12**u2** -> 1:9.2p1-2+deb12**u3**) 和 Ubuntu (1:8.9p1-3 -> 1:8.9p1-3**ubuntu0.10**) 所以看版本号要看后缀,不是非得升级到 9.8p1。问题发现团队的公告最后有时间线: https://www.qualys.com/2024/07/01/cve-2024-6387/regresshion.txt。
2024-08-27 16:04:22 435
原创 [kubernetes]-pod启动报错too many open files
导语:ulimt已经设置过,但pod启动报错too many open files。记录一个容器内很方便查看inotify相关配置的脚本。执行脚本查看容器内外相关限制。最终调整调度的节点解决。
2024-08-27 16:02:02 227
原创 [问题已处理]-ubuntu22.04安装显卡驱动后桌面端卡在黑屏小白点一直闪进不去桌面
导语:笔记本带4080安装ubuntu22.04,桌面在未安装550显卡驱动前没问题。装了显卡驱动就会卡在黑屏,但命令行界面可用。把secure boot改成enable后可以进入桌面版,但是显卡用不了。一个小白点一直闪进不去桌面,但是终端可用,可以ssh,不影响其他功能。容器内的egl版本,这里是正常的由nvidia提供的。重装显卡驱动,重装桌面。更换其他版本驱动都未能解决。最终解决方法,修改显卡安装命令。查看物理机器的egl版本。
2024-08-27 15:57:14 921
原创 [kubernetes]-使用k8tz来配置pod中的时区
导语:看到有用k8tz来配置pod中的时区的。来学习一下,这个用来统一namespace的时间很方便。先下载对应的文件https://github.com/k8tz/k8tz/tree/master。补充下调整namespace时区和宿主机一致的命令。进入chats目录后 使用helm安装。创建一个pod查看下时区。
2024-08-27 15:55:34 207
原创 [问题已处理]-containerd下snapshots文件夹占用磁盘特别大
需要在/etc/containerd/config.toml下添加snapshotter = “” ,重启containerd并删除/data1/containerd/snapshots。导语:containerd的containerd/snapshots占用磁盘非常大。感觉都是deployment的pod没必要做快照,可以直接关闭或者删除。看了下占用较大的都是gpu容器,像是同步了整个权重文件夹,导致会有60G的快照。总共有3000个左右。
2024-08-27 15:50:10 717
原创 [kubernetes]-k8s定时备份单节点etcd及故障恢复
思路:通过cronjob类型去定时备份(cronjob备份可以确保每次备份的时候k8s状态是ok的),通过可执行文件在宿主机上进行恢复。导语:前场经常非法关机导致单机的etcd损坏。每次都重装k8s虽然比较简单,但是会相对耗时。把命令写到脚本里做了下测试,恢复成功。不用root去备份会报权限问题。cronjob.yaml如下。立即运行cronjob。
2024-04-28 11:32:24 361
原创 [问题已处理]-k8s无法通外网,无法通过svc的name通讯,但可以通过svc的ip通讯
导语:故障排查,k8s 无法通外网,无法通过svc的name通讯,但是可以通过svc的ip通讯。原/etc/iptables-rules如下。新/etc/iptables-rules如下。需要执行一下下面命令。
2024-04-28 11:31:50 363
原创 [问题已处理]-同个ovf恢复的虚拟机的容器无法调用egl
内部测试在suse15.5上用nvidia-container-toolkit 1.9也是可以调用egl的(1080Ti),在ubuntu22.04上用nvidia-container-toolkit 1.13.5-1也是可以调用egl的(1080Ti)导语:导出的suse虚拟机文件恢复的虚拟机上以及容器内,egl均可使用。但是客户方相同文件的虚拟机宿主机可以调用egl,但是容器内会报错。最终让客户的suse升级最新的1.15之后就可以调用egl了(A4000)。
2024-04-28 11:30:54 176
原创 [问题已处理]-断电后containerd无法启动并报错bbolt db.go
后续查看日志开头有etcd相关的报错,containerd为什么会需要etcd呢,后续发现是containerd存储数据也使用了.db文件,应该是使用了etcd存储数据那一套。我删除了卸载containred和docker并重新安装,并没有解决问题。docker和containerd都无法启动,启动夯住,系统日志报错如图。依旧不行则需要清理整个containerd文件夹,但是镜像需要重新导入。也不一定具体是哪个文件,有其他人遇到另外的db损坏的。率先尝试删除db文件,重启后会新生成。docker相关db。
2024-04-28 11:30:20 513 1
原创 [kubernetes]-在k8s中使用NodeLocal DNSCache
_PILLAR__LOCAL__DNS__:表示 DNSCache 本地监听的 IP 地址,该地址可以是任何地址,只要该地址不和你的集群里现有的 IP 地址发生冲突。另外还有两个参数 __PILLAR__CLUSTER__DNS__ 和 __PILLAR__UPSTREAM__SERVERS__,这两个参数会进行自动配置,对应的值来源于 kube-dns 的 ConfigMap 和定制的 Upstream Server 配置。,会占用宿主机的 8080 端口,所以需要保证该端口未被占用。
2024-04-28 11:29:58 589
原创 [问题已处理]-离线安装系统未设置中文字体支持
usr/share/man/zh_CN 如果没有这个文件夹同步过去应该也可以使用。导语:同事离线安装系统,没有中文支持。
2024-04-12 11:50:22 430
原创 [linux]-ubuntu22.04使用parallel-rsync
导语:体验一下prsync工具(parallel-rsync)但是parallel-rsync没有–delete参数。
2024-04-12 11:49:17 626
原创 [linux]-ubuntu制作离线源
导语:服务器通过一个镜像安装的 但是安装离线依赖的时候会报错。后续发现是非离线服务器定时任务更新了部分软件包。制作docker及nvidia-container-toolkit的离线源。如果要关闭这个更新 需要删除这个文件。apt-down.sh脚本如下。
2024-04-12 11:47:56 331
原创 [kubernetes]-kube-green定时减少不必要的资源
导语:使用kube-green定时休眠deployment,测试玩一下。创建cert-manager。
2024-04-12 11:45:50 254
原创 [jenkins]-jenkins通过harbor凭证推送镜像
导语:在凭证中创建好harbor推送用户之后,通过jenkins推送镜像。无需在对应服务器上登录对应账号,提升安全性。
2024-04-12 11:44:35 621
原创 [linux]-docker为已经创建的容器增加新的挂载配置
导语:开发经常需要在已经创建好的容器里增加挂载路径,但不希望重新创建docker容器。采用如下方式增加挂载。
2024-04-12 11:42:26 679
原创 [问题已处理]-crontab增加source之后定时任务未成功执行
导语:定时任务中无法使用source ,增加了source /etc/profile之后定时任务后面的命令未执行。有被执行,但是source后面的命令未执行成功。这个是去掉source之后的结果 是能够运行的。去掉/etc/profile 直接跑,能够成功。
2024-04-12 11:38:50 326
原创 [问题已处理]-vmware虚拟机3060卡安装470以上的显卡驱动报错No devices were found
导语:在vmware exsi6.7.0上直通3060卡。安装470以上的显卡驱动报错No devices were found。(img-ogMEJMQn-1712893033247)]修改显卡驱动安装的命令 增加。
2024-04-12 11:37:19 1305
原创 [linux]-通过shell删除Prometheus-Push-Gateway的group
导语:有需求需要通过shell删除Prometheus-Push-Gateway的group。
2024-04-12 11:35:44 312
原创 [linux]-gitlab定时同步2个不同仓库
导语:因同一个仓库下A项目需要public权限,但是group有限制,打算把这个仓库同步到其他项目B。不过master分支好像会有点问题。我这边没影响就没过多在意了。
2024-04-12 11:28:27 463
原创 [问题已处理]-虚拟机运行container报错libEGL warning- egl- failed to create dri2 screen
物理机相对较新,可能硬件对某些版本支持不太友好。调整基础镜像为nvidia/opengl:1.0-glvnd-devel-ubuntu22.04 测试就没问题了。导语:同一个镜像在22.04的宿主机上egl没问题,在16.04的宿主机上提示。原Dockerfile如下,基础镜像是ubuntu:22.04。
2024-04-12 10:26:18 1342
原创 [kubernetes]-k8s执行定时任务时与实际时间差8小时
kubeadm 配置 (v1beta3) https://www.bookstack.cn/read/kubernetes-1.25-zh/9cae0960d626dce4.md。发现CronJob的执行时间是根据kube-controller-manager的时间来控制。导语:k8s执行定时任务时日志时间与实际时间差8小时。服务器时区和容器时区均没问题。需要修改kube-controller-manager的配置,增加挂载。kubeadm初始化的时候加上以下内容。k8s1.27版本可以添加。
2024-04-12 10:18:08 569
bizhub2200P.zip
2020-07-11
觅安教育zabbix4.0个人学习笔记.docx
2019-11-22
mysql的monyog工具,8.8.0版本
2019-03-26
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人