基于天池Better Synth多模态大模型数据合成挑战赛的多模态大模型数据合成(2) [Datawhale AI 夏令营]-CSDN博客

本文链接：https://blog.csdn.net/weixin_64865780/article/details/141233085

官方Baseline学习

再来回顾一下，该问题背景基于天池Better Synth多模态大模型数据合成挑战赛，详细可以参考该链接。
简而言之，本背景基于图片数据方面，在合成与清洗图文数据中提高多模态大模型的图片理解能力。
基于 Mini-Gemini 模型进行训练，只关注于预训练（模态间对齐）阶段的数据合成与清洗，指令微调阶段为固定数据集。选用 MGM-2B 规模的模型作为模型。

小题外话

官方提供了相应的Baseline：
通过了基本的数据准备、下载，数据的环境配置后（下载需要等待一段时间）。
下面我们基于官方的Baseline，学习一下其中的内容：

数据合成

利用 Data-juicer（详见官方链接），我们可以快速调用blip模型合成数据：

dataset_path: input/pretrain_stage_1_10k/mgm_pretrain_stage_1_10k.jsonl
export_path: output/image_captioning_output/res_10k.jsonl

# np: 1
process:
  - image_captioning_mapper:
      hf_img2seq: '/root/autodl-tmp/better_synth_baseline_autoDL/models/goldsj/blip2-opt-2___7b'  # You can replace this path to a local downloaded HF model
      keep_original_sample: false  # we only need the recaptioned captions

其中，np设置>1支持并行处理，定义的常数取决于CPU和GPU的配置，process中的 image_captioning_mapper 就是 caption 的相关算子（官方定义）。

训练

我们只看官方可供修改的部分地方：

############################################################################
########################### Editable Part Begins ###########################
############################################################################
# exp meta information
EXP_NAME=default
PRETRAIN_DATASET=../input/pretrain_stage_1/mgm_pretrain_stage_1.jsonl
PRETRAIN_DATASET_IMAGE_PATH=../input/pr