运维软件技术
文章平均质量分 67
自动化运维技术
Cloud孙文波
不忘初心,方得始终
展开
-
GPU A800 A100系列NVIDIA环境和PyTorch2.0基础环境配置【建议收藏】
Ant系列GPU支持 NvLink & NvSwitch,若您使用多GPU卡的机型,需额外安装与驱动版本对应的nvidia-fabricmanager服务使GPU卡间能够互联,否则可能无法正常使用GPU实例。【摘要】 Nvidia A系列裸金属服务器安装NVIDIA和CUDA驱动,安装conda和pytorch2.0并验证cuda的有效性。选择安装环境相关版本: GPU驱动版本为530.30.02、CUDA版本为12.1.0。注意事项: 不能选择Driver, 否则会覆盖已安装的NVIDIA驱动.原创 2024-03-19 20:22:00 · 728 阅读 · 0 评论 -
LVS NAT、DR、FULL-NAT 模式介绍
NAT模式下的转发流程当请求达到调度器时,此时请求会先达到PREROUTING链,这个时候源IP为CIP 目标IP为VIP当内核检测到访问的IP是本机是,会将数据包发送到INPUT链,IPVS检测到数据包中访问的后段服务是集群服务后,会将请求包发送至POSTROUTING链,这个时候会将目标IP改为RIP,此时源IP为CIP 目标IP为RIP,在这个过程中完成转换。原创 2024-04-07 11:54:20 · 621 阅读 · 0 评论 -
OpenLdap +PhpLdapAdmin + Grafana docker-compose部署安装
OpenLDAP是轻型目录访问协议(Lightweight Directory Access Protocol,LDAP)的自由和开源的实现,在其OpenLDAP许可证下发行,并已经被包含在众多流行的Linux发行版中。它本身是一个小型文件数据库。Ldap是树形结构的,能够通过server + client(服务端+客户端)的方式。进行统一的用户(账号)管理。举个栗子:如果有100台机器,一个用户需要登录这100台机器。传统的做法就是每台机器中,都需要创建登录账号,操作100次。想想都会疯掉。原创 2023-09-05 15:21:26 · 1809 阅读 · 2 评论 -
分布式训练 最小化部署docker swarm + docker-compose落地方案
机器具备docker、NVIDIA显卡、NVIDIA驱动等相关安装包和硬件设施,nvidia-smi 可以正常显示出机器的GPU显卡。原创 2023-08-27 22:15:50 · 1137 阅读 · 0 评论 -
ubuntu 编译安装nginx及安装nginx_upstream_check_module模块
Type:服务启动类型。默认simple表示ExecStart为主进程,notify类似于simple,启动结束后会发出通知信号。另外还有forking,oneshot,dbus,idle等类型;ExecStart,ExecStop,ExecReload等:启动命令组,分别是服务启动时,停止时,重启时,启动前,启动后,停止后执行的命令;After:在b.target服务组启动后,再启动本服务;Description:对该服务的描述;Unit: 服务的启动顺序和依赖关系。WantedBy:服务所在的服务组。原创 2023-08-16 17:17:11 · 862 阅读 · 0 评论 -
Ubuntu Nvidia Failed to initialize NVML: Driver/library version mismatch 解决方案
现象:执行nvidia-smi报错原因:NVIDIA 内核版本与系统驱动版本不适配,Ubuntu自动将nvidia的驱动从525.105更新到了525.116 如下图注:当使用apt-get命令时,默认会将所有需要更新的包都下载更新处理方法:重启机器一般情况下就可以解决问题,需要注意的问题是要保证当前机器上没有正在跑的服务,需要将机器上的服务进行驱逐重启之后服务可能会遇到如下问题导致这个问题的原因是由于Ubuntu将驱动更新了,我们使用的cuda版本不能兼容现在的驱动版本。原创 2023-06-21 15:57:11 · 1772 阅读 · 0 评论 -
Rancher 证书过期处理方案
rancher ui 突然不能访问, 日志可以看出证书已经过期。1. 进入 rancher server 容器,执行相关操作。3. 重启rancher server 容器。原创 2023-02-28 18:24:51 · 872 阅读 · 0 评论 -
harbor 使用python调harbor api进行定时同步镜像 【干货,粘贴复制直接用】
使用python flask 调用harbor api 实现动态定时镜像同步原创 2022-12-03 15:01:31 · 922 阅读 · 0 评论 -
jenkins 执行shell命令报错 error: cannot open ‘.git/FETCH_HEAD‘: Permission denied
设置enkins 为root用户启动。原创 2022-11-29 11:38:25 · 643 阅读 · 0 评论 -
CI/CD 编译golang项目依赖包使用自建的gitlab仓库 免密码配置
ci cd golang开发语言编译原创 2022-11-13 16:59:23 · 665 阅读 · 0 评论 -
AWS EC2部署jenkins pipeline 输出乱码解决
解决中文乱码问题原创 2022-11-13 10:07:43 · 458 阅读 · 0 评论 -
Shell 将多条命令赋值给变量执行【超级实用】
shell 执行变量中的多条命令原创 2022-11-12 23:59:53 · 586 阅读 · 0 评论 -
Docker run提示possibly malicious path detected -- refusing to operate on /etc/resolv.conf: unknown
项目场景:部署离线训练实验问题描述:docker 启动容器时报错mount resolv.conf报错 如下图:原因分析:我一共有六台服务器其中三台机器是7.2.1511,7.6.1810版本有问题的机器如下:内核版本:3.10.0-327.el7.x86_64docker版本为 19.03.4系统版本为7.2.1511初步怀疑是系统版本和docker版本不兼容导致,Google了一圈查到的资料大部分都说是docker的依赖包版本不对。解决方案:一定要...原创 2021-11-19 12:05:51 · 5861 阅读 · 2 评论 -
linux 快速生成大文件
**一、fallocate 命令**未创建大文件时:fallocate -l 400G test #这里需要注意的是生成的是一个目录ll -h testdu -sh ./test创建后:二、dd [root@node2 lib]# dd if=/dev/zero of=test1 bs=100M count=4000000 1000+0 records in 1000+0 records out 1048576000 bytes (1.0 GB) copied, 16.6原创 2021-06-17 18:00:50 · 2006 阅读 · 0 评论 -
60道常见的 Kubernetes 面试题总结 【超级实用】
如果有帮助到你,请顺便点个赞或者收藏~简述ETCD及其特点?etcd 是 CoreOS 团队发起的开源项目,是一个管理配置信息和服务发现(service discovery)的项目,它的目标是构建一个高可用的分布式键值(key-value)数据库,基于 Go 语言实现。特点:简单:支持 REST 风格的 HTTP+JSON API安全:支持 HTTPS 方式的访问快速:支持并发 1k/s 的写操作可靠:支持分布式结构,基于 Raft 的一致性算法,Raft 是一套通过选举主节点来实现分布式系统转载 2021-05-25 15:45:23 · 398 阅读 · 0 评论 -
ansible playbook初始化系统基础环境,直接就可以用!
包含系统参数优化,基础设置。安装python3.7、jdk1.8、golang 1.15 、maven、nodejs、docker、docker-compose废话不说直接上干货- hosts: develop user: root become: yes vars: python_home: /usr/local/ golang_home: /usr/local/ maven_home: /usr/local/ node_home: /usr/local/#原创 2021-04-19 16:03:52 · 427 阅读 · 0 评论 -
linux too many open files 解决方法
1、增大允许打开的文件数——命令方式ulimit -n 2048这样就可以把当前用户的最大允许打开文件数量设置为2048了,但这种设置方法在重启后会还原为默认值。ulimit -n命令非root用户只能设置到4096。想要设置到更大需要sudo权限或者root用户。2、增大允许打开的文件数——修改系统配置文件vim /etc/security/limits.conf#在最后加入soft nofile 4096hard nofile 4096或者只加入nofile 8192原创 2021-03-28 20:34:26 · 964 阅读 · 3 评论 -
CDH6 impala impala java.lang.OutOfMemoryError: GC overhead limit exceeded
背景:开发同事反馈连接impala 刷新表连接超时问题现象:使用命令连接impala引擎后执行invalidate metadata default.hjc03161408;起初报错如下:Error: Couldn’t open transport for cdh6-krb5.senses-ai.com:26000 (connect() failed: Connection refused) (state=HY000,code=0)impala 实例组件如下图:排查经过:telnet 了一原创 2021-03-18 13:14:20 · 860 阅读 · 0 评论 -
Hadoop No FileSystem for scheme “hdfs“ 客户端环境变量配置
我当前的/etc/profile文件配置的环境变量export JAVA_HOME=/opt/java/jdk1.8.0_131export SPARK_HOME=/opt/spark-2.4.4-bin-hadoop2.7export HIVE_HOME=/usr/hdp/current/hive-clientexport LIVY_HOME=/opt/livy/livy-0.5.0-incu...原创 2021-02-04 17:34:43 · 701 阅读 · 0 评论 -
Gitlab数据备份及数据恢复重置gitlab管理密码方法
一、创建备份文件首先我们得把老服务器上的Gitlab整体备份,使用Gitlab一键安装包安装Gitlab非常简单, 同样的备份恢复与迁移也非常简单. 使用一条命令即可创建完整的Gitlab备份。gitlab完全备份命令:gitlab-rake gitlab:backup:create使用以上命令会在/var/opt/gitlab/backups目录下创建一个名称类似为1545200330_2...原创 2019-10-28 12:01:31 · 225 阅读 · 0 评论 -
Kettle数据迁移的安装及使用
前提一、安装JDK java环境1、Kettle是纯Java编写的ETL开源工具,目前Kettle7和Kettle8都需要Java8或者以上才能正常运行。所以开运行Kettle前先检查Java环境是否正确配置。很明显当前环境没有安装java JDK环境,那么接下来我们去java官网下载JDK安装包。JDK下载网址:https://www.oracle.com/technetwork/java...原创 2019-10-28 15:39:26 · 153 阅读 · 0 评论 -
KONG 可视化管理及接口访问
1 Konga UI基本使用一般访问地址:http://192.168.1.70:80801.1 Step1:创建upstream1.1.1 【样例】Name=>VCSAPI_SERVERSlot=>10001.2 Step2:配置upstream target1.2.1 【样例】多个节点,配置多个target即可。Target=>192.168.10.3...原创 2020-03-19 10:33:59 · 1030 阅读 · 0 评论 -
KONG GATEWAY 基本介绍及安装
1 Kong基本介绍Kong 基于Nginx和lua实现的API GateWay,用于管控Restful接口:使用修改过的Nginx作为代理服务器,即Openrestry,该服务器负责处理Api请求。Cassandra或者postgresql用作数据存储(Datastore)服务器,存储来自kong操作的数据。数据持久化建议采用Cassandra,原因如下:1)易于构建分布式 2)易于扩......原创 2020-03-19 10:28:55 · 3016 阅读 · 0 评论 -
阿里云Centos7 搭建zabbix无法接收报警邮件
之前在阿里云上部署了zabbix服务,配置完自己想监控的内容后,需要添加一个邮件报警的功能,之前我在服务器上面写过脚本也需要发送邮件(同样是阿里云的服务器),知道阿里云默认将25端口给封掉了所以利用传统的发邮件的方式肯定是行不通的,后来也是经过大量的查找方法,利用465端口可以发送邮件,今天主要还是记录此次部署zabbix邮件报警踩到的坑。部署完邮件服务器后,测试本地可以发送邮件了,并且也可以收到...原创 2019-11-13 16:58:44 · 136 阅读 · 0 评论 -
DOCKER安装及基本使用
1 DOCKER 基本结构Docker客户端:Docker是C/S的应用架构模型,一般客户端和服务端都在同一个二进制文件中。所以通常我们都可以通过Docker命令来运行相关操作。但是也可以通过用于程序基于API来操作。Docker daemon:Docker 的服务端,通常表示的包都是Docker Engine,接受用户请求,并进行相关操作。容器:相当于虚拟机的概念,但是简化...原创 2019-10-28 15:31:01 · 109 阅读 · 0 评论 -
阿里云服务器被植入恶意插件解决过程
问题发现:国庆放假期间公司一台阿里云服务器发现无法正常登陆,报错信息提示22端口未开放。且服务器提供的jenkins服务是正常可以使用的,部分功能缺失,于是登陆阿里云控制台使用远程终端管理登陆服务器,发现输入对的用户名及登陆口令无法登录进系统,而且一直提示让重复登录,无法正常登陆进系统内部,很是困惑,第一次遇到这种奇葩的问题,有种束手无策的感觉。问题解决经过:开始联系了阿里云的系统工程师申请...原创 2019-10-22 11:24:23 · 699 阅读 · 0 评论 -
Openerstry + lua + redis 动态路由转发
# 环境准备lua环境5.1 以上安装lua-cjson-2.1.0模块 第一步:下载地址,http://www.kyne.com.au/~mark/software/lua-cjson.php下载lua-cjson-2.1.0.tar.gz 第二步:解压cjsonsudo tar zxvf lua-cjson-2.1.0.tar.gz第三步: make如果出现报错fi...原创 2020-08-06 19:22:22 · 505 阅读 · 0 评论 -
运维技术积累
普通用户通过脚本非交互添加定时任务cron_job="00 00 * /opt/stella-k8s/cron_init_kerberos.sh"( crontab -l | grep -v "$cron_job"; echo "$cron_job" ) | crontab -tar 分片切割合并split -b 1300m -a 2 stella-images.tar.gz stel...原创 2020-11-23 11:11:35 · 169 阅读 · 0 评论