自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

爷来辣的博客

如果你觉得工作不如意,工资低,还不敢跳槽,没别的问题,你能力不行.

  • 博客(858)
  • 资源 (7)
  • 收藏
  • 关注

原创 [kubernetes]-k8s修改local-path-provisioner创建的pv名称

导语:local-path-provisioner提供的storage 创建的pv名称是比较难以识别的,希望进入pv还得确认一下。我希望能够更好辨识一些。最终的镜像测试直接替换yaml中的镜像就可以让最终的pv名称显示更友好了。local-path-provisioner的日志。修改controller.go,调整1417行为。pvc-${pcv_name}并切换到tag 0.0.23。再以新的Dockerfile构建。

2024-08-29 11:15:37 150 1

原创 [问题已处理]-k8s单节点容器间无法通讯排查

调整2台防火墙规则一致后,容器间依旧没法通讯,执行上面命令可以临时生效,但是重启后又会无法通讯。另一台正常的机器重启后依旧可以正常通讯。导语:2台服务器,一台机器单节点的k8s启动正常,另一台单节点k8s会crash,日志是pod之间无法通讯。安装过程中,执行下面命令时有异常,导致规则没有全部报错。后续发现是开机未执行命令。

2024-08-29 11:13:22 244

原创 [问题已处理]-k8s ingress启动报80被占用后续

导语:ingress nginx报错80端口无法被bind后续。目前遇到过3次,此次无论重启还是重置k8s均会提示80的问题。官方的error没打印。是listen失败,但上层调用时就是认为是 port already in use。使用root用户测试,或者可以尝试删除镜像重新导入。后续排查到官方的troubleshooting.md,猜测可能是权限掉了的问题。现场问题临时使用nodePort + nginx80的方式先提供了服务。经查使用nc -l 80 可以使用80,证明端口并未被占用。

2024-08-29 11:12:13 608

原创 [问题已处理]-k8s设置了--fail-swap-on=false但是启动依旧报错不支持swap

验证是否为系统版本22.04.1 > 22.04.4和内核版本升级5.15.0-43-generic > 5.15.0-107-generic造成的。后续验证暂时排除对应原因。原因看着像是Environment里的配置无法被识别到,其他机器是没问题的。采用手动启动服务是不会报错swap的。导语:kubelet启动突然报错不支持swap了。看内核和系统版本有自动更新。

2024-08-29 11:10:34 219

原创 [问题已处理]-ufw加入新规则之后ufw reload报错ERROR initcaps

需要执行下面的命令重新添加防火墙规则。注意可能会导致ssh掉线,建议直连服务器操作。导语:ufw加入新规则之后ufw reload报错ERROR: initcaps。

2024-08-29 11:09:49 264

原创 [linux]-tar输出当前解压进度或解压中文件的进度

这条命令是一个复杂的 shell 命令,用于计算指定文件的打开百分比。对于镜像导入都不行。

2024-08-29 11:07:20 358

原创 [问题已处理]-麒麟V10SP2安装k8s初始化后coredns报错No such device or address

导语:银河麒麟高级服务器操作系统 V10 SP2 aarch64 安装k8s时coredns报错No such device or address。这回启动之后coredns日志一直报错still waiting kubernetes。最终调整docker配置和初始化参数,使用cgroupfs。试了官方sp1的方法。

2024-08-29 11:06:14 380

原创 [问题已处理]-ctr镜像导入报错failed to create snapshot- missing parent bucket- not found

导语:今天发现执行脚本版本升级的时候。原先存在的镜像导入报错failed to create snapshot: missing parent,但是镜像没有变更果。只需要执行下下面的命令就能正常了。排查之后发现,脚本修改了。

2024-08-27 16:18:16 356

原创 [问题已处理]-dpkg- error processing package mysql-server-5.7 --configure

导语:mysql5.7.2x升级到5.7.33的时候报错。直接在bash的下一行 增加。查看其实已经升级成功了。

2024-08-27 16:17:21 250

原创 [问题已处理]-通过shell创建wiki里的页面,并把日志文件的内容贴进去

贴一下上传安装和质检日志的shell,通过for循环导出日志,并替换掉其中的特殊字符避免提交出现500。并根据关键字对颜色进行调整。导语:希望通过shell创建wiki里的页面,并把日志文件的内容贴进去。通过脚本把文件123的内容更新到page中。目前version是写死的。Basic后面跟的是base64转码后的。shell命令实现如下。重复名称就会提示400。

2024-08-27 16:16:31 231

原创 [问题已处理]-k8s让job在重启后再执行

的时间来判断是否为开机。为了确保k8s正常运行,大致设置了15分钟。因为重启之前进行下载解压安装,肯定超过半小时。等reboot之后,job的策略会再次运行。并让其他job等待这个job执行完毕,来夯住整个流程。导语:希望设计一个job,首次重启后再执行。这个initcontainer。配合shutdown命令使用。

2024-08-27 16:14:40 245

原创 [linux]-shell不使用expcect实现简单的脚本交互

导语:希望实现脚本交互安装。但是又不喜欢用expcect。以下脚本适用于固定交互方式,切交互简单的。,交互依次输入1;以下是GPT给出的建议。

2024-08-27 16:13:44 138

原创 [kubernetes]-helm通过hook在upgrade前清理job

当我们使用before-hook-creation的时候,job资源会在存在的情况下先删除,再次创建。避免因为不能修改而中断。导语:当我们使用helm upgrade时,job资源会因为不能修改而中断。初次执行时job名称似乎没有显示,重复执行几次之后查看job名并无问题。yaml添加部分为annotations块。并未经详细验证和测试。

2024-08-27 16:12:02 222

原创 [kubernetes]-k8s使用velero备份恢复采用minio和oss

Velero 阿里云插件地址:https://github.com/AliyunContainerService/velero-plugin 4-5年前的了。确认已经开通oss功能,并创建bucket ,名为opes-velero-back https://oss.console.aliyun.com/overview 关闭阻止公共访问。Velero 项目地址:https://github.com/vmware-tanzu/velero。找了2台不同的服务器试了下 A备份去B恢复没问题。

2024-08-27 16:08:53 341

原创 [kubernetes]-k8s网络排查利器nsenter

验证是否已经进入容器网络。在nsenter中telnet localhost 2181是可以的。但是有缺陷,无法用service名称通讯。需要手动修改/etc/resolv.conf。导语:看到有用nsenter在docker运行时的情况下,排查网络问题的脚本。学习了一下顺便增加了一个containerd版本。containerd版本。

2024-08-27 16:06:54 286

原创 [问题已处理]-suse环境添加开机启动脚本

导语:客户的环境是suse环境,需要添加开机启动脚本把虚拟ip拉起来。

2024-08-27 16:05:18 441

原创 [问题已处理]-CVE-2024-6387漏洞修复

非滚动发行版都是 patch 支持的版本而不是直接升级到最新,比如 Debian (1:9.2p1-2+deb12**u2** -> 1:9.2p1-2+deb12**u3**) 和 Ubuntu (1:8.9p1-3 -> 1:8.9p1-3**ubuntu0.10**) 所以看版本号要看后缀,不是非得升级到 9.8p1。问题发现团队的公告最后有时间线: https://www.qualys.com/2024/07/01/cve-2024-6387/regresshion.txt。

2024-08-27 16:04:22 329

原创 [问题已处理]-docker安装yearning

导语:需要安装sql审计平台,以docker安装yearning为例。

2024-08-27 16:03:19 323

原创 [kubernetes]-pod启动报错too many open files

导语:ulimt已经设置过,但pod启动报错too many open files。记录一个容器内很方便查看inotify相关配置的脚本。执行脚本查看容器内外相关限制。最终调整调度的节点解决。

2024-08-27 16:02:02 175

原创 [问题已处理]-ubuntu22.04安装显卡驱动后桌面端卡在黑屏小白点一直闪进不去桌面

导语:笔记本带4080安装ubuntu22.04,桌面在未安装550显卡驱动前没问题。装了显卡驱动就会卡在黑屏,但命令行界面可用。把secure boot改成enable后可以进入桌面版,但是显卡用不了。一个小白点一直闪进不去桌面,但是终端可用,可以ssh,不影响其他功能。容器内的egl版本,这里是正常的由nvidia提供的。重装显卡驱动,重装桌面。更换其他版本驱动都未能解决。最终解决方法,修改显卡安装命令。查看物理机器的egl版本。

2024-08-27 15:57:14 654

原创 [kubernetes]-使用k8tz来配置pod中的时区

导语:看到有用k8tz来配置pod中的时区的。来学习一下,这个用来统一namespace的时间很方便。先下载对应的文件https://github.com/k8tz/k8tz/tree/master。补充下调整namespace时区和宿主机一致的命令。进入chats目录后 使用helm安装。创建一个pod查看下时区。

2024-08-27 15:55:34 190

原创 [问题已处理]-containerd下snapshots文件夹占用磁盘特别大

需要在/etc/containerd/config.toml下添加snapshotter = “” ,重启containerd并删除/data1/containerd/snapshots。导语:containerd的containerd/snapshots占用磁盘非常大。感觉都是deployment的pod没必要做快照,可以直接关闭或者删除。看了下占用较大的都是gpu容器,像是同步了整个权重文件夹,导致会有60G的快照。总共有3000个左右。

2024-08-27 15:50:10 484

原创 [kubernetes]-k8s定时备份单节点etcd及故障恢复

思路:通过cronjob类型去定时备份(cronjob备份可以确保每次备份的时候k8s状态是ok的),通过可执行文件在宿主机上进行恢复。导语:前场经常非法关机导致单机的etcd损坏。每次都重装k8s虽然比较简单,但是会相对耗时。把命令写到脚本里做了下测试,恢复成功。不用root去备份会报权限问题。cronjob.yaml如下。立即运行cronjob。

2024-04-28 11:32:24 351

原创 [问题已处理]-k8s无法通外网,无法通过svc的name通讯,但可以通过svc的ip通讯

导语:故障排查,k8s 无法通外网,无法通过svc的name通讯,但是可以通过svc的ip通讯。原/etc/iptables-rules如下。新/etc/iptables-rules如下。需要执行一下下面命令。

2024-04-28 11:31:50 347

原创 [问题已处理]-同个ovf恢复的虚拟机的容器无法调用egl

内部测试在suse15.5上用nvidia-container-toolkit 1.9也是可以调用egl的(1080Ti),在ubuntu22.04上用nvidia-container-toolkit 1.13.5-1也是可以调用egl的(1080Ti)导语:导出的suse虚拟机文件恢复的虚拟机上以及容器内,egl均可使用。但是客户方相同文件的虚拟机宿主机可以调用egl,但是容器内会报错。最终让客户的suse升级最新的1.15之后就可以调用egl了(A4000)。

2024-04-28 11:30:54 174

原创 [问题已处理]-断电后containerd无法启动并报错bbolt db.go

后续查看日志开头有etcd相关的报错,containerd为什么会需要etcd呢,后续发现是containerd存储数据也使用了.db文件,应该是使用了etcd存储数据那一套。我删除了卸载containred和docker并重新安装,并没有解决问题。docker和containerd都无法启动,启动夯住,系统日志报错如图。依旧不行则需要清理整个containerd文件夹,但是镜像需要重新导入。也不一定具体是哪个文件,有其他人遇到另外的db损坏的。率先尝试删除db文件,重启后会新生成。docker相关db。

2024-04-28 11:30:20 469 1

原创 [kubernetes]-在k8s中使用NodeLocal DNSCache

_PILLAR__LOCAL__DNS__:表示 DNSCache 本地监听的 IP 地址,该地址可以是任何地址,只要该地址不和你的集群里现有的 IP 地址发生冲突。另外还有两个参数 __PILLAR__CLUSTER__DNS__ 和 __PILLAR__UPSTREAM__SERVERS__,这两个参数会进行自动配置,对应的值来源于 kube-dns 的 ConfigMap 和定制的 Upstream Server 配置。,会占用宿主机的 8080 端口,所以需要保证该端口未被占用。

2024-04-28 11:29:58 545

原创 [问题已处理]-离线安装系统未设置中文字体支持

usr/share/man/zh_CN 如果没有这个文件夹同步过去应该也可以使用。导语:同事离线安装系统,没有中文支持。

2024-04-12 11:50:22 421

原创 [linux]-ubuntu22.04使用parallel-rsync

导语:体验一下prsync工具(parallel-rsync)但是parallel-rsync没有–delete参数。

2024-04-12 11:49:17 577

原创 [linux]-ubuntu制作离线源

导语:服务器通过一个镜像安装的 但是安装离线依赖的时候会报错。后续发现是非离线服务器定时任务更新了部分软件包。制作docker及nvidia-container-toolkit的离线源。如果要关闭这个更新 需要删除这个文件。apt-down.sh脚本如下。

2024-04-12 11:47:56 310

原创 [kubernetes]-kube-green定时减少不必要的资源

导语:使用kube-green定时休眠deployment,测试玩一下。创建cert-manager。

2024-04-12 11:45:50 253

原创 [jenkins]-jenkins通过harbor凭证推送镜像

导语:在凭证中创建好harbor推送用户之后,通过jenkins推送镜像。无需在对应服务器上登录对应账号,提升安全性。

2024-04-12 11:44:35 579

原创 [linux]-docker为已经创建的容器增加新的挂载配置

导语:开发经常需要在已经创建好的容器里增加挂载路径,但不希望重新创建docker容器。采用如下方式增加挂载。

2024-04-12 11:42:26 603

原创 [问题已处理]-crontab增加source之后定时任务未成功执行

导语:定时任务中无法使用source ,增加了source /etc/profile之后定时任务后面的命令未执行。有被执行,但是source后面的命令未执行成功。这个是去掉source之后的结果 是能够运行的。去掉/etc/profile 直接跑,能够成功。

2024-04-12 11:38:50 296

原创 [问题已处理]-vmware虚拟机3060卡安装470以上的显卡驱动报错No devices were found

导语:在vmware exsi6.7.0上直通3060卡。安装470以上的显卡驱动报错No devices were found。(img-ogMEJMQn-1712893033247)]修改显卡驱动安装的命令 增加。

2024-04-12 11:37:19 1205

原创 [linux]-通过shell删除Prometheus-Push-Gateway的group

导语:有需求需要通过shell删除Prometheus-Push-Gateway的group。

2024-04-12 11:35:44 301

原创 [linux]-gitlab定时同步2个不同仓库

导语:因同一个仓库下A项目需要public权限,但是group有限制,打算把这个仓库同步到其他项目B。不过master分支好像会有点问题。我这边没影响就没过多在意了。

2024-04-12 11:28:27 431

原创 [linux]-物理机不下内存条减小内存大小

导语:原服务器是4卡128G,希望测试4卡64G的情况,又不想开机箱下内存。机器也不在本地机房。

2024-04-12 11:26:51 267

原创 [问题已处理]-虚拟机运行container报错libEGL warning- egl- failed to create dri2 screen

物理机相对较新,可能硬件对某些版本支持不太友好。调整基础镜像为nvidia/opengl:1.0-glvnd-devel-ubuntu22.04 测试就没问题了。导语:同一个镜像在22.04的宿主机上egl没问题,在16.04的宿主机上提示。原Dockerfile如下,基础镜像是ubuntu:22.04。

2024-04-12 10:26:18 1140

原创 [kubernetes]-k8s执行定时任务时与实际时间差8小时

kubeadm 配置 (v1beta3) https://www.bookstack.cn/read/kubernetes-1.25-zh/9cae0960d626dce4.md。发现CronJob的执行时间是根据kube-controller-manager的时间来控制。导语:k8s执行定时任务时日志时间与实际时间差8小时。服务器时区和容器时区均没问题。需要修改kube-controller-manager的配置,增加挂载。kubeadm初始化的时候加上以下内容。k8s1.27版本可以添加。

2024-04-12 10:18:08 525

bizhub2200P.zip

bizhub 2200P 打印机启动安装包。解压之后点击setup64安装即可。适合没有光驱 并且 不方便访问国外下载源的朋友。自己去驱动网站下了几个不能安装还有一堆病毒。。

2020-07-11

opt.tar.gz

nginx1.12适配的 lua 模块 ngx_dynamic_upstream 模块 ngx_http_dyups_module

2020-03-26

觅安教育zabbix4.0个人学习笔记.docx

觅安教育zabbix4.0个人学习笔记 仅仅是个人学习该视频所做的笔记(自己没掌握的记录了,不是全部记录) 供自己学习使用,如果可以帮助到别人,那更好了.如果有侵权等问题,请联系我删除.

2019-11-22

mysql的monyog工具,8.8.0版本

monyog安装包 SQL DM for MySQL 32bit tar SQL DM for MySQL 64bit tar SQL DM for MySQL 32bit RPM SQL DM for MySQL 64bit RPM SQL DM for MySQL Windows

2019-03-26

nginx geo-ip contry和city2个数据库

nginx geo-ip contry和city2个数据库。现在官网下载404

2019-01-12

gcc4.8yum安装包及依赖

解压安装包之后 rpm -Uvh *.rpm --nodeps --force (忽略关联性、强制安装)

2018-11-19

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除