PASCAL VOC2012数据集内容解读

机械专业的计算机小白

已于 2022-04-15 18:37:14 修改

阅读量2.1k

点赞数 1

文章标签： pytorch

于 2022-04-15 17:31:21 首次发布

本文链接：https://blog.csdn.net/wzfafabga/article/details/124199792

版权

本文详细介绍了PASCAL VOC数据集的结构，包括Annotations中的XML信息，如图像尺寸、边界框和对象标注，以及train.txt、val.txt和trainval.txt等文件的作用。此外，还探讨了Main目录下的文件格式，用于目标检测和分类任务。

摘要由CSDN通过智能技术生成

1.总体结构

Annotations——所有图像标注信息，XML格式

ImageSets——图像信息

Action——人的行为动作图像信息

Layout——人的各个部位图像信息

Main——目标检测分类图像信息

train.txt——训练集5717

val.txt——验证集5823

JPEGImage——图片png格式

trainval.txt——训练集+验证集11540

Segmentation——目标分割图像信息

SegmentationClass——图像分割png图（基于类别）

SegmentationObject——图像分割png图（基于坐标）

2.Annotations中文件——以一个xml文件2007_000027.xml为例,以此类推。

<annotation>
	<folder>VOC2012</folder>
	<filename>2007_000027.jpg</filename>
	<source>
		<database>The VOC2007 Database</database>
		<annotation>PASCAL VOC2007</annotation>
		<image>flickr</image>
	</source>
	<size>
		<width>486</width>
		<height>500</height>
		<depth>3</depth>
	</size>
	<segmented>0</segmented>
	<object>
		<name>person</name>
		<pose>Unspecified</pose>
		<truncated>0</truncated>
		<difficult>0</difficult>
		<bndbox>
			<xmin>174</xmin>
			<ymin>101</ymin>
			<xmax>349</xmax>
			<ymax>351</ymax>
		</bndbox>
		<part>
			<name>head</name>
			<bndbox>
				<xmin>169</xmin>
				<ymin>104</ymin>
				<xmax>209</xmax>
				<ymax>146</ymax>
			</bndbox>
		</part>
		<part>
			<name>hand</name>
			<bndbox>
				<xmin>278</xmin>
				<ymin>210</ymin>
				<xmax>297</xmax>
				<ymax>233</ymax>
			</bndbox>
		</part>
		<part>
			<name>foot</name>
			<bndbox>
				<xmin>273</xmin>
				<ymin>333</ymin>
				<xmax>297</xmax>
				<ymax>354</ymax>
			</bndbox>
		</part>
		<part>
			<name>foot</name>
			<bndbox>
				<xmin>319</xmin>
				<ymin>307</ymin>
				<xmax>340</xmax>
				<ymax>326</ymax>
			</bndbox>
		</part>
	</object>
</annotation>

靠缩进来表达节点包含关系，加/表示该节点结束。

<annotation>——注释，说明这是给数据集中一个图片的注释

<folder>——文件夹，所在文件夹为VOC2012

<filename>——对应的文件名为2007_000027.jpg,此文件在

<source>——来源于哪？

<size>——图像尺寸，width宽486，height高500，由于是RGB图片，depth深度或通道数为3.

<segmented>——被分割没？0没，1有。

<bndbox>——bounding box边缘框，给的是左上与右下的坐标。

3.train.txt文件内容节选。val.txt和trainval.txt同理。

2008_000008
2008_000015
2008_000019
2008_000023
2008_000028
2008_000033
2008_000036

都为图像名称。trainval.txt是最后用来训练网络最后在测试集中测试。

4.main中文件

2008_000008 -1
2008_000015 -1
2008_000019 -1
2008_000023 -1
2008_000028 -1
2008_000033  1
2008_000036 -1

-1没出现，1出现了，0难检测。

机械专业的计算机小白

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
PASCAL VOC2012数据集内容解读

Annotations——所有图像标注信息，XML格式ImageSets——图像信息Action——人的行为动作图像信息Layout——人的各个部位图像信息Main——目标检测分类图像信息train.txt——训练集5717val.txt——验证集5823trainval.txt——训练集+验证集11540Segmen...
复制链接

扫一扫