DSTC11-TRACK5 baseline问题解决纯享版

目录

一、pycharm与服务器的相关问题

1.1 PyCharm添加Anaconda中的虚拟环境,Python解释器出现Conda executable is not found

1.2 DEPLOYMENT 出现 SFTP host is not specified.

1.3 用pycharm(中的命令行)运行.sh文件

二、requirements相关问题

2.1 punkt和wordnet安装问题

2.2 ModuleNotFoundError: No module named 'wrapt'

2.3 summ_val相关问题

2.3.1 summ_val 下载安装问题

2.3.2 summ_val 使用问题

三、run_baseline_training.sh相关问题

3.1ImportError: cannot import name 'get_full_repo_name' from 'huggingface_hub' (/disk2/anaconda3/lib/python3.9/site-packages/huggingface_hub/__init__.py)

3.2 Permission denied无(执行)权限

3.3 ModuleNotFoundError: No module named 'rouge_score'

3.4undefined symbol: cublasltHSHMatmulAlgolnit, version libcublaslt. so.1l

四、run_baseline_eval.sh相关问题

4.1summ_val问题,2.3.2已解决

4.2 CUDA error: CUBLAS_STATUS_EXECUTION_FAILED when calling `cublasLtMat

五、其他问题与提醒

5.1用时提醒

5.2TORCH与CUDA

5.3 GitHub上传大文件

5.4 Linux环境变量配置、更改操作

5.5 bash: nvidia: command not foundv

5.6 cmd 命令行切换地址

5.7 Anaconda与torch安装

5.8 命令行查看文件大小

5.9 links for torch

5.10 Linux将一个件夹或文件夹下的所有内容复制到另一个文件夹

5.11 Linux下隐藏文件和显示隐藏文件命令

5.12 jar包操作

5.13 vim命令大全


这边是复现baseline时遇到的问题与对应的解决方案,不是一步一步的操作指导(差不多了)

一、pycharm与服务器的相关问题

1.1 PyCharm添加Anaconda中的虚拟环境,Python解释器出现Conda executable is not found

解:http://t.csdnimg.cn/G3UmU

1.2 DEPLOYMENT 出现 SFTP host is not specified.

解:检查SSH configuration是否已选择存在的ssh(下图就是没选择,所以报错,且无法保存)

1.3 用pycharm(中的命令行)运行.sh文件

 解:http://t.csdnimg.cn/jv5glhttp://t.csdnimg.cn/6Fjxchttp://t.csdnimg.cn/0WXxx


二、requirements相关问题

2.1 punkt和wordnet安装问题

解:用他的代码没法直接下载下来,目前解法有上传到GitHub后用git clone 或在pycharm本地上传http://t.csdnimg.cn/W2kbA

2.2 ModuleNotFoundError: No module named 'wrapt'

解:直接pip install wrapt 或conda install wrapt

2.3 summ_val相关问题

2.3.1 summ_val 下载安装问题

直接pip install会说无权限

解:现在的解法是此前已在命令后添加--user:http://t.csdnimg.cn/NdekZ,这样就会下载到自己的账户下,不会有权限问题。

但是,就算这样,我们自己用python检测的时候还是没能检测出summ_val,这需要添加到PATH路径(可参考http://t.csdnimg.cn/4kcBh,但不需要卸载刚刚安装的summ_val),这样之后我们自己用python也能调用summ_val了。

2.3.2 summ_val 使用问题

(这其实应该放到第 四 章的,因为是在eval.sh才用到,不过提前解决了也好)

使用的时候还是没法检测到已经下载到自己账户的summ_val

解:追根溯源,到底是哪里用到了summ_val。参考(DSTC11-TRACK5——复现历程2章节3.3.1)


三、run_baseline_training.sh相关问题

3.1ImportError: cannot import name 'get_full_repo_name' from 'huggingface_hub' (/disk2/anaconda3/lib/python3.9/site-packages/huggingface_hub/__init__.py)

解:参考下载本地后上传(DSTC11-TRACK5——复现历程2 ,对应章节:3.2.4)

3.2 Permission denied无(执行)权限

解:添加执行权限 chmod 755 xxxx.sh http://t.csdnimg.cn/6wSf9

3.3 ModuleNotFoundError: No module named 'rouge_score'

解:直接pip install,后面好像还缺了个啥,也直接pip install就好

3.4undefined symbol: cublasltHSHMatmulAlgolnit, version libcublaslt. so.1l

解:其实出现这个就是torch与cuda版本不匹配的问题了,直接查看自己的版本然后修改为合适的版本(比如我从11.1换成了11.7就好了(torch==1.13.1适配cuda==11.6/11.7))


四、run_baseline_eval.sh相关问题

4.1summ_val问题,2.3.2已解决

4.2 CUDA error: CUBLAS_STATUS_EXECUTION_FAILED when calling `cublasLtMat

解:待解决

参考过的解法链接:http://t.csdnimg.cn/oIyWx、令各个文件的CUDA device设置相同http://t.csdnimg.cn/V6vFe、截断法(我这不适用,因为会破坏文本完整性)http://t.csdnimg.cn/BW5nP、torch与cuda版本问题(不适用,已经是完美匹配了)http://t.csdnimg.cn/6Oa2j


五、其他问题与提醒

5.1用时提醒

3060环境下,

training.sh第一阶段20min*10次迭代

training.sh第二阶段共约6h

training.sh第三阶段共约1h

eval.sh第一阶段10min

eval.sh第二阶段30min

eval.sh第三阶段,其实10min内就能训练完

5.2TORCH与CUDA

由于环境需要的是torch==1.13.1,根据查询得知,能与之匹配的cuda(GPU)版本为11.6和11.7,请看清楚自己的cuda到底是什么版本,该换的换,该下的下

解:CUDA安装及版本切换http://t.csdnimg.cn/Q4Icghttp://t.csdnimg.cn/u3zV0http://t.csdnimg.cn/e4twKhttp://t.csdnimg.cn/lZL1Ehttp://t.csdnimg.cn/zHidN

查看cuda版本及更换版本:http://t.csdnimg.cn/K2p0dhttp://t.csdnimg.cn/F5vUu

pytorch相关文件版本关系:http://t.csdnimg.cn/z4tCs

cuda与torch、cudnn、torchvision、torchaudio版本关系:cuda、cudnn、tnesorrt的查看安装 - cfancy - 博客园 (cnblogs.com)http://t.csdnimg.cn/1NMsY

清华源的pytorch各个版本:Index of /anaconda/cloud/pytorch/linux-64/ | 清华大学开源软件镜像站 | Tsinghua Open Source Mirror

CUDNN各版本安装包官方链接cuDNN Archive | NVIDIA Developer

5.3 GitHub上传大文件

(我自己没实现,感觉好麻烦,但还是学习了一下)

解:参考链接==== http://t.csdnimg.cn/rA0zx

5.4 Linux环境变量配置、更改操作

解:Linux环境变量配置全攻略 - 悠悠i - 博客园 (cnblogs.com)

5.5 bash: nvidia: command not foundv

解:http://t.csdnimg.cn/5seUuhttp://t.csdnimg.cn/e8ESx

5.6 cmd 命令行切换地址

注意,从C到D内的文件夹要先到d,再近入d内的文件夹!

解:http://t.csdnimg.cn/Ndw1F

5.7 Anaconda与torch安装

解:http://t.csdnimg.cn/RnVFOhttp://t.csdnimg.cn/O0JvO+ 配合使用download.pytorch.org/whl/torch_stable.html 、http://t.csdnimg.cn/YbAmi、pytorch官网Start Locally | PyTorch

5.8 命令行查看文件大小

解:http://t.csdnimg.cn/QNLJC

5.9 links for torch

download.pytorch.org/whl/torch/、download.pytorch.org/whl/torch_stable.html、Index of /anaconda/cloud/pytorch/linux-64/ | 清华大学开源软件镜像站 | Tsinghua Open Source Mirror

5.10 Linux将一个件夹或文件夹下的所有内容复制到另一个文件夹

解:http://t.csdnimg.cn/dtctAhttp://t.csdnimg.cn/z6t8C

5.11 Linux下隐藏文件和显示隐藏文件命令

解:(说白了就是 ls -A) http://t.csdnimg.cn/bkmJd

5.12 jar包操作

解:解压就是unzip、其他:http://t.csdnimg.cn/GzunV

5.13 vim命令大全

解:http://t.csdnimg.cn/aozlH

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

YZYwpt

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值