[关于dpkg依赖错误的坑] 依赖出错会导致很多问题 当你运行 install / remove 都会被打断,报上面错误,就是遇到了依赖出错问题。运气好的话,你能够输入fix-broken自动解决,但是运气不好就修不好。
[Linux] 服务器CPU信息 例如,节点0包含 0-31 和 64-95 的 CPU 核心,而节点1包含 32-63 和 96-127 的 CPU 核心。因此,2 个物理 CPU 插槽(Socket(s): 2)和每个插槽 32 个核心就提供了 32 * 2 = 64 个线程(每个物理核心有 2 个线程)。输出中,显示了 CPU(s): 128,这意味着系统实际上识别到128个虚拟CPU或线程数,而不是物理CPU核心数量。因此,在两个 CPU 插槽上,系统总共有 64 * 2 = 128 个虚拟核心(线程)。
[Bert] 提取特征之后训练模型报梯度图错误 训练模型的时候,输入数据x,y不应该requires_grad,而bert模型输出的embeddings默认是requires_grad的,所以会报错。提取完embeddings之后,使用。
[huggingface报错]关于hf的版本问题 想要用pokemon的diffusion模型练一下手,但是环境弄好了之后,报错了x。查到了是 huggingface 的版本太新了,这个函数被删掉了。换完版本之后报了下面的错误。好像只能够手动下载权重了。
[jupyter运行报错] AssertionError: Torch not compiled with CUDA enabled 不知道为什么同一个环境,.py代码能跑,但是jupyter的环境报了这个错误。然后命令行输出的python版本和安装环境时制定的python版本不一致。首先,在命令行能够转成cuda tensor。感觉这个环境也挺奇怪的。
【jupyter】linux服务器怎么使用jupyter 最后conda环境还是没办法安装ipykernel,最后换了一个新的python环境。所以服务器跑jupyter,只需要conda环境装ipykernel。下载完kernel还是报错(那就继续下载)下载完了等待环境处理问题等了好久。
[linux服务器] Exception in thread “main“ java.awt.HeadlessException: No X11 DISPLAY variable was set, 首先我是想用nbia-data-retriever 下载数据的,结果ubuntu服务器没办法使用它下载。使用命令行命令下载时会报上面这个错误。缺失的包需要自己手动安装。
[pytorch] 训练节省显存的技巧 因为偷懒,使用的是 pytorch 自带的 scaler,发现其实没什么用。是更新梯度,但是计算图没有释放,可以使用zero_grad释放计算图。这个我也没有试验过。
[git操作] git创建仓库上传github报错 操作流程如下git init报错如下输入git status按照它的提示,把 .git/index.lock 文件手动删掉,然后重新git add .就可以了。
[stain norm] 病理图片染色处理笔记 在这里插入图片描述](https://i-blog.csdnimg.cn/direct/b8170b71aa3842de82b95c72993bbce4.png。因为要涉及多张病理图片的stain norm,所以需要一对一地进行transforms,但是即使这么做了,使用。reference_image的大小是(2000, 2500)但是sources_image的大小为(512,512)可能最主要的原因还是染色的色域差得有点大吧。还是出现了奇怪的染色情况。颜色确实变深了一点。
[conda]环境更新python 目前装环境、迁移环境还是没有找到一套方便的模板,所以只能很笨地一步一步安装。所以考虑新建一个conda环境,然后把旧环境的库在新环境中重新安装一遍。除此之外,就删掉一些在本地安装地库,然后保留能用pip安装的库,使用。都没有办法完成升级,我猜测可能是有库依赖于python3.7的版本。torch是没办法直接下载的好像,要去torch官网找命令下载。如果有一些库出错,可能需要手动下载。库好像只会记录项目依赖的库。
[服务器运维] gpu幽灵进程处理 这种情况通常是由于所谓的"僵尸进程"引起的。僵尸进程是指那些已经完成任务但没有正确关闭的进程,它们可能因为各种原因未能释放占用的GPU资源。这会导致资源浪费,并且阻碍其他任务的执行。但是有时候这些PID是主进程,已经kill不了了。然后就把这个nvidia下面的进程kill掉就行。有些服务器可能需要sudo权限才能使用。查看当前占用GPU资源的进程。