1. 首先了解下微调模型调整的参数,多模态模型其整体架构如下,整体模型大小26B,chatLLM 大小为20B,通过几层MLP 映射到6B的 VIT模块,在这个中间还有Pixel Shuffle层,作者称之为Dynamic High Resolution,InternVL独特的预处理模块:动态高分辨率,是为了让ViT模型能够尽可能获取到更细节的图像信息,提高视觉特征的表达能力。对于输入的图片,首先resize成448的倍数,然后按照预定义的尺寸比例从图片上crop对应的区域。
2. 模型微调的格式需要注意,这里只能传输一张图片,和多轮对话;
2.1 图片:主要是在多模态格式当中的“image”的路径当中获取
2.2 对话格式:是 xtuner的特有多轮对话格式,每个conversation包含from、和value地方3. 微调训练过程,采用了xtuner中已集成的qlora方式,训练了3000个图像和对话,batch 选择了4,adamW优化器,选择了6圈,epoch一般为3,数据量越大训练epoch可减小,越小可适当增加。r代表矩阵秩的大小,具体大家自行参考lora中r和alpha的意义,一般情况下lora相比全参数微调