实验室服务器操作指南
深度学习服务器ubuntu操作管理手册
#服务器管理员操作步骤:
*当前情况:
1.服务器系统盘装在名为计算机的Ext4(233.2GB),还有文件盘2T的机械硬盘挂载在/mnt/2T下,用图形界面查看名为2TDISK,要求每个用户必须在/mnt/2T 下创建个自己的目录统一管理。
2.存在两个组,学生组STUDENT,老师组TEACHER,老师组是管理员权限 ,在/mnt/2T 有额外的acl权限rwx
*添加用户到系统,并可以使用xrdp远程控制(新添加学生用户按照这个操作就行!!!)
1.#添加用户指定生成家目录, 并添加到ssl-cert组(远程连接的协议),新创建用户why
useradd -r -m -s /bin/bash -g <选择老师或者学生组名> -G ssl-cert why
2.#设置密码
passwd why
3.#将软件使用须知拷贝到新创建用户why家目录
sudo cp 软件使用须知.txt /home/why
4.#重启xrdp服务
sudo systemctl restart xrdp
*权限设定
1.STUDENT学生组(2T挂载盘的用户组,权限755 rwxr-xr-x) TEACHER老师组管理员权限(新添加的需要手动加入sudo组)
*其他杂项操作(可不看)
userdel -r zhx #所有有关zhx用户的文件 连同家目录一起删掉
sudo usermod -g STUDENT why #调整用户归属
sudo chgrp STUDENT ./2T #将2T挂载盘所属组改变
gpasswd -a why STUDENT #将why加入STUDENT组
sudo adduser fuzhou sudo #给用户管理员权限
sudo setfacl -m d:g:TEACHER:rwx -R ./2T #给挂载硬盘acl权限,教师组可以拥有rwx权
*docker选项
1.docker配置深度学习环境
root下有一个tensorflow-gpu=2.8.0的images
(1)必须pycharm专业版
(2)先拉取需要的images
(3)创建容器docker run -d --name zhxautotf -u 996 -it --rm --gpus all -v /home/zhx/Desktop/:/tf/Desktop -p 8888:8888 tensorflow/tensorflow:last-gpu
(4) pycharm下需要指定–runtime=nvidia
(5)从镜像里创建一个的docker容器
docker run -d --name zhxautot
(6)容器生成镜像
docker commit -a “runoob.com” -m “my apache” a404c6c174a2 mymysql:v1
2.权限
如果非root用户需要root下的images,需要修改权限:sudo chmod a+rwx /var/run/docker.sock
sudo chmod a+rwx /var/run/docker.pid
3.非root用户使用docker:
sudo gpasswd -a docker
newgrp docker
*docker指令
$ docker ps // 查看所有正在运行容器
$ docker stop containerId // containerId 是容器的ID
$ docker ps -a // 查看所有容器
$ docker ps -a -q // 查看所有容器ID
$ docker rm [container id] //删除容器
$ docker images //查看所有镜像
$ docker rmi [image id] //删除镜像
$ docker stop $(docker ps -a -q) // stop停止所有容器
$ docker rm $(docker ps -a -q) // remove删除所有容器
$ docker rm docker ps -a|grep Exited|awk '{print $1}'
//删除所有Exited状态的容器
$ docker logs -tf --tail=“50” container_name //查看已启动容器日志
$ docker exec -it container_name bash/sh //进入已启动容器shell
$ docker run -ti --rm -v ~/tmp:/tmpdata qz757/ubuntu-python:1.0.0 bash //以bash方式启动容器并挂载临时目录给容器
$ docker commit [container id] [image name]