书生大模型 - 进阶岛 - 第四关 - InternVL 多模态模型部署微调实践

1.  首先了解下微调模型调整的参数,多模态模型其整体架构如下,整体模型大小26B,chatLLM 大小为20B,通过几层MLP 映射到6B的 VIT模块,在这个中间还有Pixel Shuffle层,作者称之为Dynamic High Resolution,InternVL独特的预处理模块:动态高分辨率,是为了让ViT模型能够尽可能获取到更细节的图像信息,提高视觉特征的表达能力。对于输入的图片,首先resize成448的倍数,然后按照预定义的尺寸比例从图片上crop对应的区域。

2. 模型微调的格式需要注意,这里只能传输一张图片,和多轮对话;

        2.1 图片:主要是在多模态格式当中的“image”的路径当中获取

        2.2 对话格式:是 xtuner的特有多轮对话格式,每个conversation包含from、和value地方3. 微调训练过程,采用了xtuner中已集成的qlora方式,训练了3000个图像和对话,batch 选择了4,adamW优化器,选择了6圈,epoch一般为3,数据量越大训练epoch可减小,越小可适当增加。r代表矩阵秩的大小,具体大家自行参考lora中r和alpha的意义,一般情况下lora相比全参数微调,具体微调的经验和意义可自行查找,也可参考本篇文章【LLM模型微调】LLMs-PEFT[微调]-微调经验总结v1.0 (qq.com)

4. 训练过程:刚开始的lr学习率较高,随着step增加,adamW使得训练lr减小,但是发现loss始终没有太大变化,一般经验是随着epoch在2~3圈的时候,loss会有显著较小。但是明显,我没那个耐心了………

5. 结果显示:

这是未微调之前的回答,不幽默也米有梗的感觉个人理解,微调后的回答还是有些意思的,虽然不是爆梗,但也算中规中矩的冷笑话了。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值