问题已处理
爷来辣
个人笔记,快乐运维。
展开
-
[问题已处理]-虚拟机运行container报错libEGL warning- egl- failed to create dri2 screen
物理机相对较新,可能硬件对某些版本支持不太友好。调整基础镜像为nvidia/opengl:1.0-glvnd-devel-ubuntu22.04 测试就没问题了。导语:同一个镜像在22.04的宿主机上egl没问题,在16.04的宿主机上提示。原Dockerfile如下,基础镜像是ubuntu:22.04。原创 2024-04-12 10:26:18 · 1275 阅读 · 0 评论 -
[问题已处理]-服务器使用mount创建硬连接之后,磁盘空间异常,且比较卡
jenkins构建报错如上图所示,但是磁盘使用并没有超过50%。另外服务器也比较卡。导语:服务器使用mount创建硬连接之后,磁盘空间异常,且比较卡。查看/etc/mtab 有9w多个挂载信息。原创 2024-04-12 10:08:37 · 364 阅读 · 0 评论 -
[问题已处理]-linux隐藏ssh版本
导语:漏扫的时候经常需要升级ssh版本,想着能不能用最快的方式通过测试。仅适用于版本号扫描,扫算法的就不行了。同理修改/usr/bin/ssh。原创 2024-04-10 11:33:31 · 816 阅读 · 0 评论 -
[问题已处理]-k8s1.22无法使用swap
导语:同样的配置kubeadm-config.yaml配置分别在16.04和22.04上初始化1.22(使用docker)后,22.04 无法使用到swap。排查发现22.04需要在 /lib/systemd/system/kubelet.service 中的KUBELET_EXTRA_ARGS添加。备注一下:如果使用了特权模式,容器内会没有/sys/fs/cgroup/memory.swap.xxx这些文件,但是压是可以把swap压上去的。后可以试用swap,重启后也可以使用swap。原创 2024-04-10 11:07:12 · 197 阅读 · 0 评论 -
[问题已处理]-ingress报错csp
导语:ingress增加了Content-Security-Policy安全规则后前端报csp问题,部分图片没发访问。修改Content-Security-Policy成如下之后恢复正常。故障时增加的相关ingress配置如下。原创 2024-04-10 10:51:59 · 279 阅读 · 0 评论 -
[问题已处理]-docker build报错make :bin:sh Operation not permitted
导语:在构建docker image的过程中报错make /bin/sh Operation not permitted。最终通过查看install的最终命令如执行。完整Dockerfile如下。原创 2023-07-12 15:07:05 · 1566 阅读 · 0 评论 -
[问题已处理]-Unknown desc = RuntimeHandler “nvidia“ not supported
导语:使用runtimeclass时报错Failed to create pod sandbox: rpc error: code = Unknown desc = RuntimeHandler “nvidia” not supported。以docker为运行时的k8s,需要修改handler为docker。查看资料https://opni.io/setup/gpu/原创 2023-04-17 18:06:43 · 543 阅读 · 1 评论 -
[问题已处理]-ubuntu重启networking之后路由丢失
导语:服务器通过脚本修改网络ip之后,提供的wifi无法连接。排查后发现是缺少一条路由。这个路由在开机启动的时候会生成,但是通过命令systemctl restart networking 之后就会丢失。可以通过这个命令添加。这样每次重启networking依旧会加上路由。原创 2023-04-17 17:57:10 · 861 阅读 · 0 评论 -
[问题已处理]-服务器报错没有egl
libglvnd是与供应商无关的调度层,用于仲裁多个供应商之间的OpenGL API调用。它允许来自不同供应商的多个驱动程序共存于同一文件系统上,并确定在运行时将每个API调用分派给哪个供应商。支持GLX和EGL,并与OpenGL和OpenGL ES任意组合。链接: https://pan.baidu.com/s/12pxBc9S_N5_gconZamfBbw?pwd=8lbt 提取码: 8lbt。可以通过对应的文件来测试系统是否已经安装的egl。–来自百度网盘超级会员v6的分享。原创 2023-04-17 17:46:48 · 481 阅读 · 0 评论 -
[问题已处理]-ingress.1.1.1 启动报80端口被占用过
环境信息 k8s.122 ubuntu16.04 nginx-ingress-controller:v1.1.1。docker安装在机械盘,机械盘更换过,且重装过k8s,删除了etcd无法解决。确认过端口没有被其他程序占用。报错及telnet端口的截图如下。尝试更改端口成800,也是报端口被占用。确认过端口并没有占用。导语:服务器重启后nginx-ingress-controller 启动不了 一直提示80端口被占用。看changlog是1.0.0就修复了,之前可能有类似bug。原创 2023-04-17 17:55:30 · 1376 阅读 · 0 评论 -
[kubernetes]-helm传入参数通过if来匹配不同场景所需
当orgLabel为其他值时,生成org: orgLabel。导语:希望通过helm传入参数来匹配不同场景的内存配置。当orgLabel为空时,则生成org: no-org。当orgLabel为hr时,生成org: hr。测试我想实现的根据参数调整资源限制的方法。修改values.yaml。原创 2023-03-25 14:11:29 · 498 阅读 · 0 评论 -
[kubernetes]-docker通过label筛选清理镜像
导语:记录一下清理镜像的思路。通过LABEL来过滤 非基础环境的镜像。原创 2023-03-25 14:05:39 · 358 阅读 · 0 评论 -
[问题已处理]-helm install报错tar Error is not recoverable
导语:今天helm安装的时候 莫名其妙报错一个类似解压的报错。但是我脚本中就一条内容 helm install。查看yaml文件 怀疑是少给hostPath添加。对应有关键字的yaml如下。修改之后确实没有再报错。原创 2023-03-25 14:01:46 · 167 阅读 · 0 评论 -
[问题已处理]-harbor更新ssl证书
cat docker-compose.yml 对应的证书也需要更新。导语:harbor证书过期更新ssl证书。格式. 否则可能出现401的情况。直接更新harbor数据库密码。遇到的问题:下载下来的证书。原创 2023-03-25 14:00:37 · 914 阅读 · 0 评论 -
[问题已处理]-Error 803- system has unsupported display driver cuda driver combination
打开宿主机上/etc/nvidia-container-runtime/config.toml中的debug开关,启动容器,就会看到启动日志(/var/log/nvidia-container-toolkit.log)这里已经把对应的libcuda.so.465.27做到镜像里了 所以可能没有对应的挂载日志。造成这个的原因我认为是低版本的driver不会覆盖镜像中高版本的driver导致,详细可以参考如下图片和链接。这里宿主机的cuda driver挂载进去了 但是并没有替换镜像里的driver。原创 2023-03-25 13:56:11 · 3299 阅读 · 1 评论 -
[问题已处理]-nfs挂载盘被覆盖导致数据不同步
起因:A机器的/data1是一块4T盘,然后/data1/inputdata/server2_disk(1-6)是6块8T盘,这6块盘需要通过nfs挂载到B机器上。更新服务第二天后查看发现B机器上数据和A机器不对等。排查后发现是B上挂载的是A的4T盘。排查后发现A机器上的/etc/fstab路径没写对。挂载完6T的盘(/data1/inputdata/xxx)之后 再挂载的4T的盘(/data1)。需要先挂载4T的盘,再挂6T的盘。后续为了保险把原先的挂载路径/data1修改为/mysqldata。原创 2023-03-25 13:52:41 · 512 阅读 · 0 评论 -
[问题已处理]-tgz在不同版本的openssl版本无法解压
ubuntu原创 2023-01-31 11:16:02 · 348 阅读 · 0 评论 -
[问题已处理]-ubuntu 报错Directory index full
ubuntu原创 2023-01-31 11:14:11 · 553 阅读 · 0 评论 -
[kubernetes]-deploy和ds调度到指定标签(gpu=true)的节点
kubernetes原创 2022-11-27 22:48:26 · 337 阅读 · 0 评论 -
[问题已处理]-将镜像解析成dockerfile
dockerfile原创 2022-11-27 22:47:03 · 386 阅读 · 0 评论 -
[问题已处理]-一次dockerfile构建导致的gcc版本的变化
gcc原创 2022-11-27 22:43:54 · 331 阅读 · 0 评论 -
[问题已处理]-ubuntu选择启动时的内核版本
ubuntu原创 2022-11-27 22:31:43 · 1328 阅读 · 0 评论 -
[问题已处理]-docker在构建镜像时使用apt出现提示the public key is not available
docker原创 2022-10-17 10:34:42 · 1006 阅读 · 0 评论 -
[问题已处理]-在k8s中通过nginx部署前端 发布后遇到无法访问和启动失败的问题
k8s原创 2022-10-15 15:52:00 · 2962 阅读 · 0 评论 -
[问题已处理]-修改ds的配置未立即生效
k8s原创 2022-10-15 15:50:53 · 247 阅读 · 0 评论 -
[问题已处理]在docker中使用nohup
docker原创 2022-10-15 15:29:35 · 3560 阅读 · 0 评论 -
[问题已处理]-jenkinsfile判断参数是否包含字符串进行条件构建
jenkins原创 2022-10-15 15:23:26 · 1472 阅读 · 0 评论 -
[问题已处理]-排查一次vscode无法ssh连接服务器的过程
vscode原创 2022-10-14 22:43:29 · 828 阅读 · 0 评论 -
[问题已处理]-job日志未输出的排查思考
k8s job原创 2022-10-14 22:40:24 · 257 阅读 · 0 评论 -
[问题已处理]-docker根目录之后,k8s 报错 ResolvConfPath resolv.conf does not exist
docker原创 2022-10-07 13:14:52 · 855 阅读 · 0 评论 -
[问题已处理]-pod中无法使用cuda及获取不到egl
k8s原创 2022-09-11 22:35:32 · 835 阅读 · 1 评论 -
[kubernetes]-subpath挂载configmap
k8s原创 2022-09-11 22:00:02 · 1112 阅读 · 0 评论 -
[问题已处理]-dockerfile构建安装pycuda的时候报错 fatal error- cuda.h- No such file or directory
docker原创 2022-09-11 21:55:19 · 1110 阅读 · 0 评论 -
[问题已处理]-虚拟机非法关机修复之后 docker无法正常启动
docker原创 2022-09-11 21:49:43 · 374 阅读 · 0 评论 -
[问题已处理]-排查wsl崩溃的方法
wsl原创 2022-08-27 13:39:23 · 4585 阅读 · 0 评论 -
[问题已处理]-jenkins中使用grep来做退出判断
jenkins原创 2022-08-27 13:23:24 · 851 阅读 · 0 评论 -
[问题已处理]-ingress配置导致转发的请求url不一致
k8s原创 2022-08-17 21:46:24 · 1342 阅读 · 0 评论 -
[问题已处理]-kubernetes因svc的类型导致的502错误
k8s原创 2022-08-16 22:13:15 · 514 阅读 · 0 评论 -
[问题已处理]-使用busybox替代unzip解压文件
busybox原创 2022-08-16 22:10:29 · 1050 阅读 · 0 评论 -
[问题已处理]-jenkins流水线checkout超时
jenkins原创 2022-07-30 15:10:49 · 1420 阅读 · 0 评论
分享