WEDGE：通过生成视觉语言大模型DAALL-E构建的自动驾驶多种天气数据集-CSDN博客

本文链接：https://blog.csdn.net/yorkhunter/article/details/139824273

23年5月主要来自CMU团队的论文“WEDGE: A multi-weather autonomous driving dataset built from generative vision-language models“。

开放的道路给自主感知带来了许多挑战，包括极端天气。在好天气数据集上训练的模型经常无法在这些分布外数据（OOD）设置中进行检测。为了增强感知中的对抗性鲁棒性，本文引入WEDGE（WEather Images by DALL-E GEneration）：一个通过提示用视觉语言生成模型生成的合成数据集。 WEDGE 由 16 种极端天气条件下的 3360 张图像组成，并用 16513 个边框手动注释，支持天气分类和 2D 目标检测任务的研究。作者从研究的角度分析了WEDGE，验证了其对于极端天气自主感知的有效性。作者还建立了分类和检测的基线性能，测试准确度为 53.87%，mAP 为 45.41。 WEDGE 可用于微调检测器，将真实世界天气基准（例如 DAWN）的 SOTA 性能提高 4.48 AP，适用于卡车等类别。

如图是一些WEDGE合成图像例子：天气状况是{下雪、下雨、尘土飞扬、有雾、晴朗、闪电、多云、飓风、夜间、夏季、春季、冬季、秋季、龙卷风、白天、有风}，从左上角到右下角的次序。

添加图片注释，不超过 140 字（可选）

如表是数据集的对照：

添加图片注释，不超过 140 字（可选）

DALL-E [37] 是一种基于自回Transformer的大规模文本-到-图像生成模型，在零样本学习等任务中表现出了卓越的泛化能力。 DALL-E 2 [36] 是一个双阶段模型，它将 CLIP 嵌入与基于概率扩散模型的解码器相结合，用于条件生成，输出最终的真实图像。扩散模型根据此条件的描述（提示）和样本生成图像。由于是条件生成，它提供了根据嵌入在生成图像产生变化的机会。

图像生成步骤如下：

从以下关键字集中地随机采样的提示，调用OpenAI API来收集数据：
场景：高速公路、马路、堵车、高速公路
类别：汽车、卡车、公共汽车、人行横道
天气：下雪、下雨、尘土飞扬、有雾、晴天、闪电、多云、飓风、夜间、夏季、春季、冬季、秋季、龙卷风、白天、有风
手动验证和交叉检查图像是否有错误、不匹配和不一致。
3.根据天气关键词对图像进行分类，生成16类，每类210张图像。
用 RoboFlow 注释工具 [10] 手动为所有图像生成 2D 边框注释，并通过人机参与评估进行验证。
用统计和图像分析技术探索数据，包括图像相似性度量和目标类分布评估进行比较。

具体来说，用“当{天气}时，在{场景}上的{目标}”形式的提示，其中目标属于{汽车，卡车，公共汽车，人行横道}，场景属于{高速公路，道路，交通拥堵，高速公路}，并且天气属于 {下雪，下雨，尘土飞扬，有雾，晴朗，闪电，多云，飓风，夜晚，夏天，春天，冬天，秋天，龙卷风，白天，有风}。这是针对每种天气条件的 44= 16 个独特提示，随机查询 210 次，生成 16210 = 3360 个图像的最终数据集。

注：不足的地方，是没有动态的视频或者3-D数据。