前言
该问题背景基于 天池Better Synth多模态大模型数据合成挑战赛,详细可以参考该链接。
简而言之,本背景基于图片数据方面,在合成与清洗图文数据中提高多模态大模型的图片理解能力。
基于 Mini-Gemini 模型进行训练,只关注于预训练(模态间对齐)阶段的数据合成与清洗,指令微调阶段为固定数据集。选用 MGM-2B 规模的模型作为模型。
小题外话
基于大模型的数据任务一般占用的训练时间和推理时间都较长,海量的图片文字处理任务更提高了其存储和训练空间的压力。针对这类任务,比较推荐组显卡或服务器运行,例如 阿里云 等平台。
服务器下的数据下载和准备
可以借助于datawhale创建的镜像快速在平台中创建实例并下载基本的数据和准备工作(包括环境的设置和激活)(Bash代码)。
# 激活环境
conda activate name(环境名称)
git clone https:XXX
小题外话
在服务器的terminal(终端)中,我们一般使用 Linux 语句提高执行和运行效率,同时可以借助于 git clone https:XXX(地址)快速部署。
Linux 语句和 git 的相关内容或者细节感兴趣的话可以自主搜索学习。
安装必要工具并下载实验数据集和图片描述(Bash代码):
apt update
apt install axel zip file
pip install modelscope
bash download.sh
python download_blip.py
服务器下的数据处理、合成、推理
# 激活环境
conda activate name(环境名称)
# 进入指定目录
cd list(目录)
name-process xx(进程执行)
name-process xx(进程执行)
bash xx.sh # 执行训练,推理程序
bash 具体用法可参考如下:bash具体用法
数据格式整合
借助于cp命令(主要用于复制文件或目录)可以便捷将不同目录整合打包在一起,最后整合输出:
cp -r xxx(目录)
zip -r submit.zip solution output
cp具体用法可参考如下:cp具体用法
提交结果(测评结果)
提交结果中由分数,MMBench,TextVQA构成
小题外话(两种评估详细解释可跳转以下链接)
TextVQA:详细数据集官网介绍
总结
该任务总体上来说难度较大,且利用大模型合成数据时间和空间存储占用都较大,环境配置等对未进行过服务器租借人员来说需要花费一定时间。
参考资料
1.天池Better Synth多模态大模型数据合成挑战赛
2.阿里云
3.Linux教程
4.多模态大模型评估基准
5.TextVQA数据集官网介绍