书生大模型 - 进阶岛 - 第四关 - InternVL 多模态模型部署微调实践

最新推荐文章于 2025-05-07 14:19:14 发布

头部玩家

最新推荐文章于 2025-05-07 14:19:14 发布

阅读量506

点赞数 3

文章标签：计算机视觉人工智能

本文链接：https://blog.csdn.net/weixin_45464374/article/details/141611458

版权

1. 首先了解下微调模型调整的参数，多模态模型其整体架构如下，整体模型大小26B，chatLLM 大小为20B，通过几层MLP 映射到6B的 VIT模块，在这个中间还有Pixel Shuffle层，作者称之为Dynamic High Resolution，InternVL独特的预处理模块：动态高分辨率，是为了让ViT模型能够尽可能获取到更细节的图像信息，提高视觉特征的表达能力。对于输入的图片，首先resize成448的倍数，然后按照预定义的尺寸比例从图片上crop对应的区域。

2. 模型微调的格式需要注意，这里只能传输一张图片，和多轮对话；

2.1 图片：主要是在多模态格式当中的“image”的路径当中获取

2.2 对话格式:是 xtuner的特有多轮对话格式，每个conversation包含from、和value地方3. 微调训练过程，采用了xtuner中已集成的qlora方式，训练了3000个图像和对话，batch 选择了4，adamW优化器，选择了6圈，epoch一般为3，数据量越大训练epoch可减小，越小可适当增加。r代表矩阵秩的大小，具体大家自行参考lora中r和alpha的意义，一般情况下lora相比全参数微调࿰