目录
1.1 PyCharm添加Anaconda中的虚拟环境,Python解释器出现Conda executable is not found
1.2 DEPLOYMENT 出现 SFTP host is not specified.
2.2 ModuleNotFoundError: No module named 'wrapt'
三、run_baseline_training.sh相关问题
3.3 ModuleNotFoundError: No module named 'rouge_score'
3.4undefined symbol: cublasltHSHMatmulAlgolnit, version libcublaslt. so.1l
4.2 CUDA error: CUBLAS_STATUS_EXECUTION_FAILED when calling `cublasLtMat
5.5 bash: nvidia: command not foundv
5.10 Linux将一个件夹或文件夹下的所有内容复制到另一个文件夹
这边是复现baseline时遇到的问题与对应的解决方案,不是一步一步的操作指导(差不多了)
一、pycharm与服务器的相关问题
1.1 PyCharm添加Anaconda中的虚拟环境,Python解释器出现Conda executable is not found
1.2 DEPLOYMENT 出现 SFTP host is not specified.
解:检查SSH configuration是否已选择存在的ssh(下图就是没选择,所以报错,且无法保存)
1.3 用pycharm(中的命令行)运行.sh文件
解:http://t.csdnimg.cn/jv5gl、http://t.csdnimg.cn/6Fjxc、http://t.csdnimg.cn/0WXxx
二、requirements相关问题
2.1 punkt和wordnet安装问题
解:用他的代码没法直接下载下来,目前解法有上传到GitHub后用git clone 或在pycharm本地上传http://t.csdnimg.cn/W2kbA
2.2 ModuleNotFoundError: No module named 'wrapt'
解:直接pip install wrapt 或conda install wrapt
2.3 summ_val相关问题
2.3.1 summ_val 下载安装问题
直接pip install会说无权限
解:现在的解法是此前已在命令后添加--user:http://t.csdnimg.cn/NdekZ,这样就会下载到自己的账户下,不会有权限问题。
但是,就算这样,我们自己用python检测的时候还是没能检测出summ_val,这需要添加到PATH路径(可参考http://t.csdnimg.cn/4kcBh,但不需要卸载刚刚安装的summ_val),这样之后我们自己用python也能调用summ_val了。
2.3.2 summ_val 使用问题
(这其实应该放到第 四 章的,因为是在eval.sh才用到,不过提前解决了也好)
使用的时候还是没法检测到已经下载到自己账户的summ_val
解:追根溯源,到底是哪里用到了summ_val。参考(DSTC11-TRACK5——复现历程2章节3.3.1)
三、run_baseline_training.sh相关问题
3.1ImportError: cannot import name 'get_full_repo_name' from 'huggingface_hub' (/disk2/anaconda3/lib/python3.9/site-packages/huggingface_hub/__init__.py)
解:参考下载本地后上传(DSTC11-TRACK5——复现历程2 ,对应章节:3.2.4)
3.2 Permission denied无(执行)权限
解:添加执行权限 chmod 755 xxxx.sh http://t.csdnimg.cn/6wSf9、
3.3 ModuleNotFoundError: No module named 'rouge_score'
解:直接pip install,后面好像还缺了个啥,也直接pip install就好
3.4undefined symbol: cublasltHSHMatmulAlgolnit, version libcublaslt. so.1l
解:其实出现这个就是torch与cuda版本不匹配的问题了,直接查看自己的版本然后修改为合适的版本(比如我从11.1换成了11.7就好了(torch==1.13.1适配cuda==11.6/11.7))
四、run_baseline_eval.sh相关问题
4.1summ_val问题,2.3.2已解决
4.2 CUDA error: CUBLAS_STATUS_EXECUTION_FAILED when calling `cublasLtMat
解:待解决
参考过的解法链接:http://t.csdnimg.cn/oIyWx、令各个文件的CUDA device设置相同http://t.csdnimg.cn/V6vFe、截断法(我这不适用,因为会破坏文本完整性)http://t.csdnimg.cn/BW5nP、torch与cuda版本问题(不适用,已经是完美匹配了)http://t.csdnimg.cn/6Oa2j
五、其他问题与提醒
5.1用时提醒
3060环境下,
training.sh第一阶段20min*10次迭代
training.sh第二阶段共约6h
training.sh第三阶段共约1h
eval.sh第一阶段10min
eval.sh第二阶段30min
eval.sh第三阶段,其实10min内就能训练完
5.2TORCH与CUDA
由于环境需要的是torch==1.13.1,根据查询得知,能与之匹配的cuda(GPU)版本为11.6和11.7,请看清楚自己的cuda到底是什么版本,该换的换,该下的下
解:CUDA安装及版本切换http://t.csdnimg.cn/Q4Icg、http://t.csdnimg.cn/u3zV0、http://t.csdnimg.cn/e4twK、http://t.csdnimg.cn/lZL1E、http://t.csdnimg.cn/zHidN、
查看cuda版本及更换版本:http://t.csdnimg.cn/K2p0d、http://t.csdnimg.cn/F5vUu
pytorch相关文件版本关系:http://t.csdnimg.cn/z4tCs、
cuda与torch、cudnn、torchvision、torchaudio版本关系:cuda、cudnn、tnesorrt的查看安装 - cfancy - 博客园 (cnblogs.com)、http://t.csdnimg.cn/1NMsY
清华源的pytorch各个版本:Index of /anaconda/cloud/pytorch/linux-64/ | 清华大学开源软件镜像站 | Tsinghua Open Source Mirror
CUDNN各版本安装包官方链接cuDNN Archive | NVIDIA Developer
5.3 GitHub上传大文件
(我自己没实现,感觉好麻烦,但还是学习了一下)
解:参考链接==== http://t.csdnimg.cn/rA0zx
5.4 Linux环境变量配置、更改操作
解:Linux环境变量配置全攻略 - 悠悠i - 博客园 (cnblogs.com)
5.5 bash: nvidia: command not foundv
解:http://t.csdnimg.cn/5seUu、http://t.csdnimg.cn/e8ESx
5.6 cmd 命令行切换地址
注意,从C到D内的文件夹要先到d,再近入d内的文件夹!
5.7 Anaconda与torch安装
解:http://t.csdnimg.cn/RnVFO、http://t.csdnimg.cn/O0JvO+ 配合使用download.pytorch.org/whl/torch_stable.html 、http://t.csdnimg.cn/YbAmi、pytorch官网Start Locally | PyTorch
5.8 命令行查看文件大小
5.9 links for torch
download.pytorch.org/whl/torch/、download.pytorch.org/whl/torch_stable.html、Index of /anaconda/cloud/pytorch/linux-64/ | 清华大学开源软件镜像站 | Tsinghua Open Source Mirror
5.10 Linux将一个件夹或文件夹下的所有内容复制到另一个文件夹
解:http://t.csdnimg.cn/dtctA、http://t.csdnimg.cn/z6t8C、
5.11 Linux下隐藏文件和显示隐藏文件命令
解:(说白了就是 ls -A) http://t.csdnimg.cn/bkmJd
5.12 jar包操作
解:解压就是unzip、其他:http://t.csdnimg.cn/GzunV、