山东大学软件学院项目实训纪实(二)

1. 前言

本周在研究了XrayGLM的模型结构后,尝试进行模型训练。虽然在对准备好的数据进行训练时遇到了一些问题,不过最后还是成功完成了训练,在此记录一下过程中遇到过的问题。

2. 训练踩坑实录

1. visualglm-6b.zip缺失

模型对应的visualglm-6b.zip缺失,参考THUDM · GitHubVisualGLM-6B 中的模型加载部分,将model下的visualglm.py文件中的链接替换成MODEL_URLS['visualglm-6b'] = 'r2://visualglm-6b.zip'

from sat.resources.urls import MODEL_URLS
MODEL_URLS['visualglm-6b'] = 'r2://visualglm-6b.zip'

2. 'ChatGLMTokenizer' object has no attribute 'sp_tokenizer'

把tokenizer的相关代码下载到本地,修改下载的visualglm-6b的model_config.json文件,把args.tokenizer_type='THUDM/chatglm-6b'替换成本地地址:

 "tokenizer_type": "/root/autodl-tmp/chatglm-6b",

3. 数据格式不匹配

和visual_GLM 的dataset.json对比可知,openi-zh.json 还不是最终的可训练的 json版本。执行./data/build_ch_prompt.py,把finetune_XrayGLM.sh 里面的 json路径改成刚刚生成的路径。 

train_data="./data/openi-zh-prompt.json"
eval_data="./data/openi-zh-prompt.json"

4. 系统盘空间问题

训练使用AutoDl平台,为防止系统盘爆满如下:

选择将数据保存到数据盘autodl_tmp,同时后续生成的模型会自动保存到.sat_models文件夹下,所以选择将sat_models 软连接到数据盘:

ln -s  /root/autodl-tmp  ~/.sat_models

 验证软连接是否成功,依次执行命令:cd ~ 和 ll 有如下显示则说明软连接建立成功:

.sat_models -> /root/autodl-tmp/

5. transformers版本

降transformers版本4.33.2

pip install -i https://pypi.tuna.tsinghua.edu.cn/simple transformers==4.33.2

6. tensorlfow网络模型可视化

在本地进行:

activate tensorflow
tensorboard --logdir=./runs

效果 :

7. 连接不到huggingface

Error: We couldn't connect to 'https://huggingface.co' to load this file

在cli推理时同样要把cli_demo文件中的'THUDM/chatglm-6b'替换为本地路径

tokenizer = AutoTokenizer.from_pretrained("/root/autodl-tmp/chatglm-6b", trust_remote_code=True)

8. 传输文件

推荐使用xftp进行远程服务器与本地间的文件传输,直接左右拉即可,很方便。

 3. 训练结果

在解决了以上问题后,为了及时地观察到模型的训练进展和性能变化,在调试模型过程中重新设置参数使之更频繁的保存模型检查点和进行评估:

       --save-interval 300 \
       --eval-interval 300 \

输入命令开始训练:

bash finetune_XrayGLM.sh

结果:

通过对比tensorlfow图像中的值保存下最佳权重。

4. 总结

通过模型训练,有助于我了解模型在解决实际问题时的有效性和可靠性;通过训练过程中的调试和优化,我积累了宝贵的模型调优经验; 通过模型训练,我深入了解了任务领域的特点和挑战;同时与团队成员合作,共同解决问题并取得进展提升了我的团队合作能力和有效沟通能力,为未来的团队工作打下基础。

  • 9
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值