- 数据集构成
• ModelNet40
• 类别数:40 个常见物体类别(如桌子、椅子、飞机等)。
• 样本量:共 12,311 个三维模型,其中 9,843 个训练样本,2,468 个测试样本。
• 类别分布:各类别样本数量不均衡,例如“桌子”(约 1,000 个)样本最多,“花盆”(约 100 个)样本较少。
• ModelNet10
• 类别数:10 个更通用的类别(如床、马桶、沙发等),是 ModelNet40 的子集。
• 样本量:共 4,899 个三维模型,其中 3,991 个训练样本,908 个测试样本。
• 特点:类别更具代表性,样本分布相对均衡。
- 数据场景
• 应用领域:三维物体分类、点云/网格数据处理、3D 重建、机器人感知等。
• 物体类型:涵盖家具(桌子、椅子)、交通工具(汽车、飞机)、家电(显示器、台灯)、植物(花盆)等日常物体。
- 任务与评判标准
• 任务:三维物体分类(给定模型预测其类别)。
• 评测指标:
• Top-1 准确率:主要标准,模型预测的最高概率类别是否正确。
• 混淆矩阵:分析类别间的混淆情况(如“桌子”与“书桌”易混淆)。
• 其他指标:F1 Score、召回率等(较少使用)。
- 数据格式
• 原始格式:CAD 模型存储为 .off(Object File Format)文件,包含顶点和面信息。
• 预处理版本:
• 点云:XYZ 坐标(每个模型采样 1,024 或 2,048 个点),格式为 .npy
或 .txt
。
• 体素网格:二进制 3D 体素(如 32×32×32),格式为 .h5
或 .mat
。
• 文件结构:按类别分文件夹存储,如 airplane/train/airplane_0001.off
。
- 标签与标注方式
• 标签形式:每个模型对应一个类别名称(字符串)或数字编码(如 0-39)。
• 标注方法:
• 人工标注:从 3D Warehouse 收集模型后,研究者手动分类并验证。
• 质量检查:剔除低质量或重复模型,确保类别准确性。
- 统计特点与规律
• 类别不平衡:ModelNet40 中“桌子”最多(约 8%),“花盆”最少(约 0.8%)。
• 几何复杂性:模型包含简单(如“杯子”)到复杂(如“飞机”)的结构。
• 数据增强:常用旋转、缩放、噪声添加等提升泛化性。
• 对称性:许多物体(如椅子、飞机)具有轴对称特性。
- 来源文献
• 核心论文:
Title: 3D ShapeNets: A Deep Representation for Volumetric Shapes
Authors: Zhirong Wu, Shuran Song, Aditya Khosla, Fisher Yu, Linguang Zhang, Xiaoou Tang, Jianxiong Xiao
Conference: CVPR 2015
DOI: 10.1109/CVPR.2015.7298801
• 关键贡献:
• 提出首个大规模标注的 3D 数据集 ModelNet。
• 引入体素卷积神经网络(Volumetric CNN)处理三维数据。
- 典型应用与挑战
• 应用案例:
• PointNet/PointNet++(点云分类)、VoxNet(体素分类)、MeshCNN(网格处理)。
• 挑战:
• 类别内差异大(如不同风格的椅子)。
• 噪声和遮挡(部分扫描数据不完整)。
- 获取方式
• 官方渠道:
• ModelNet40 下载链接(普林斯顿大学官网)。
• 预处理版本可通过 PyTorch Geometric 或 TensorFlow Datasets 加载。
总结:ModelNet40/10 是三维视觉领域的核心基准数据集,其丰富的类别和标准评测推动了深度学习在 3D 分析中的发展。研究者需关注类别不均衡和几何复杂性对模型性能的影响。