主要是想做dstc11-track5的baseline,但是出现很多问题
1首先,是未接触过SSH,师兄给了账号密码等都不会用。
1.1通过GPT和CSDN,知道了有PUTTY等使用SSH的使用端,然后就是发现,其实直接在win的设置里面可以拓展应用powershell,通过管理员权限打开(非必须?)就能使用SSH了。
1.2怎么使用那些域名和账号密码?通过GPT,得知是:ssh 账号名@地址 -p 端口,然后就输入密码即可
2准备工作的问题
2.1跟随 dstc11-track5/baseline at main · alexa/dstc11-track5 · GitHub,里README指导,进入SSH后,在我的账号下创建了新conda环境CSK_SAM:conda create -n CSK_SAM,默认python版本(3.9)
2.2根据指导,git clone了相关文件下来,生成了dstc11-track5文件夹
2.3跟随指导,下载配置需求requests.txt内容(爆了些警告,没留意,至此没问题)
2.4问题出现!当企图跟随指导 python -m nltk. downloader 'wordnet';python -m nltk. downloader 'punkt'下载punkt和wordnet,一直报错
2.4.1通过CSDN检索解决方案,最终看到是三类解法:换梯子、改host、直接下载到本地文件夹再手动配置。参考文章如下:http://t.csdnimg.cn/EaAJ4;http://t.csdnimg.cn/jqUFN;http://t.csdnimg.cn/DuRkf。
最终我还是选择了直接下载到本地,这需要用到NLTK_DATA的网页来下载:NLTK Data。但是,由于是SSH登录,并非真的下载到我的电脑里了!所以这需要通过文件的下载链接
https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/packages/tokenizers/punkt.zip
https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/packages/corpora/wordnet31.zip
2.4.2但是,通过简单的wget并不能正常地下载,所以我便多走一步,把两个压缩包下载到桌面,然后上传到我自己的GitHub,就可以直接通过git clone下载了 。注意,需要在dstc11-track5文件夹下新建nltk_data文件夹,再在nltk_data文件夹下新建tokenizers文件夹。我把压缩包下载到了nltk_data文件夹了。GitHub - YZYFZ2H/YZYFZ2H: Config files for my GitHub profile.
复习:ls :查看当前文件夹内容;
pwd :显示当前路径;
cd :切换目录,cd ..是返回上一级(d和.中间的空格不能忘!)
mkdir :新建文件夹====>e.g. mkdir C:\Users\YourUsername\Desktop\myfolder
2.4.3在解压的时候,我需要解压到另一个文件夹,于是学习了unzip的相关知识:http://t.csdnimg.cn/an92d ===>unzip aa.zip -d /opt/module/aa/ 如此便成功解压到tokenizers文件夹了
2.4.4但是,这也只是解压完成了,程序检索nltk_data的时候并不会自己检索到我们新创建的这个tokenizers文件夹,可以用一个测试案例来检验我们的punkt能否被找到: text=nltk.word_tokenize("Barack Hussein Obama, born on August 4")
可以看到检索范围没有我们新建的文件夹,于是,需要添加NLTK_DATA的路径:
export NLTK_DATA=/home/yangzy/dstc11-track5/nltk_data
添加路径后即可正常运行测试案例 text=nltk.word_tokenize("Barack Hussein Obama, born on August 4")
至此,准备工作的问题应该解决了!
3接触模型
3.1执行:$ ./bin/run_baseline_training.sh 时,报错:Permission denied没权限(执行权限)
解决:通过CSDN检索,发现解决案例:http://t.csdnimg.cn/YPYZS;
简而言之:检查文件权限-->修改文件权限(vim进入底部模式,更多vim知识可见:http://t.csdnimg.cn/GS80G)-->保存并退出底部模式
结果确实解决了这个没权限(执行权限)的问题。
3.2新问题,ModuleNotFoundError: No module named 'rouge_score'
解决:这个好说,直接pip install补充即可
ImportError: cannot import name 'get_full_repo_name' from 'huggingface_hub' (/disk2/anaconda3/lib/python3.9/site-packages/huggingface_hub/__init__.py)
待解决:这个难理解了。。。等待白天解决。。。
希望不是因为上面操作的那个更改权限影响的(好像这是新的错误了,不是那个huggingface_hub的问题?)
可以看到pred文件夹下val文件夹内部是空的。。。,即训练模型失败。。。
2023.10.22凌晨