1.总体结构
Annotations——所有图像标注信息,XML格式
ImageSets——图像信息
Action——人的行为动作图像信息
Layout——人的各个部位图像信息
Main——目标检测分类图像信息
train.txt——训练集5717
val.txt——验证集5823
JPEGImage——图片png格式
trainval.txt——训练集+验证集11540
Segmentation——目标分割图像信息
SegmentationClass——图像分割png图(基于类别)
SegmentationObject——图像分割png图(基于坐标)
2.Annotations中文件——以一个xml文件2007_000027.xml为例,以此类推。
<annotation>
<folder>VOC2012</folder>
<filename>2007_000027.jpg</filename>
<source>
<database>The VOC2007 Database</database>
<annotation>PASCAL VOC2007</annotation>
<image>flickr</image>
</source>
<size>
<width>486</width>
<height>500</height>
<depth>3</depth>
</size>
<segmented>0</segmented>
<object>
<name>person</name>
<pose>Unspecified</pose>
<truncated>0</truncated>
<difficult>0</difficult>
<bndbox>
<xmin>174</xmin>
<ymin>101</ymin>
<xmax>349</xmax>
<ymax>351</ymax>
</bndbox>
<part>
<name>head</name>
<bndbox>
<xmin>169</xmin>
<ymin>104</ymin>
<xmax>209</xmax>
<ymax>146</ymax>
</bndbox>
</part>
<part>
<name>hand</name>
<bndbox>
<xmin>278</xmin>
<ymin>210</ymin>
<xmax>297</xmax>
<ymax>233</ymax>
</bndbox>
</part>
<part>
<name>foot</name>
<bndbox>
<xmin>273</xmin>
<ymin>333</ymin>
<xmax>297</xmax>
<ymax>354</ymax>
</bndbox>
</part>
<part>
<name>foot</name>
<bndbox>
<xmin>319</xmin>
<ymin>307</ymin>
<xmax>340</xmax>
<ymax>326</ymax>
</bndbox>
</part>
</object>
</annotation>
靠缩进来表达节点包含关系,加/表示该节点结束。
<annotation>——注释,说明这是给数据集中一个图片的注释
<folder>——文件夹,所在文件夹为VOC2012
<filename>——对应的文件名为2007_000027.jpg,此文件在
<source>——来源于哪?
<size>——图像尺寸,width宽486,height高500,由于是RGB图片,depth深度或通道数为3.
<segmented>——被分割没?0没,1有。
<object>——对象,name类别名,pose未被指明,truncated目标截断情况(是否完整),difficult进行目标检测时的难以程度,0不难,1难。
<bndbox>——bounding box边缘框,给的是左上与右下的坐标。
3.train.txt文件内容节选。val.txt和trainval.txt同理。
2008_000008
2008_000015
2008_000019
2008_000023
2008_000028
2008_000033
2008_000036
都为图像名称。trainval.txt是最后用来训练网络最后在测试集中测试。
4.main中文件
2008_000008 -1
2008_000015 -1
2008_000019 -1
2008_000023 -1
2008_000028 -1
2008_000033 1
2008_000036 -1
-1没出现,1出现了,0难检测。