mx.io.ImageRecordIter 这个库是很高效的数据集迭代器,在迭代器中,所有图片均是以record格式存在,而不再是jpg或者png等等。那么如何将图片格式的数据集编译为.rec和.idx文件呢?
首先准备工作是
1.需要将我们的图片集按照类别放入不同的子文件夹
2.下载im2rec.py 文件这里是git-hub地址
例如所有的图片都已按照类别分在不同的子文件夹,所有子文件夹都保存在data_cache/ImgData 这个文件夹下面
./data_cache/ImgData/clsA/bird1.jpg
./data_cache/ImgData/clsA/bird2.jpg
./data_cache/ImgData/clsB/bird1000.jpg
./data_cache/ImgData/clsB/bird1001.jpg
./data_cache/ImgData/clsC/bird2000.jpg
…
…
第一步生成lst文件
用一行代码即可生成lst文件
python3 im2rec.py ./my_data ./data_cache/ImgData/ --list --recursive --train-ratio 0.7 --num