图像筛选工作
我们前面的爬虫中获取了199个用户相关信息,1895个食谱相关信息。而我们现在需要从这些中挑出100个用户和他们对应的食谱。负责数据清洗的同学已经锁定了100个用户和对应的1000个食谱。但是他不擅长从那么多图片中挑出我们需要的。因此这部分工作我来承担。
食谱图片
具体目标就是读取目标食谱文件中的1000个食谱id,从保存所有食谱图片的文件夹中找到对应的图片,单独拿出来放入另一个文件夹中。我们使用python的库来实现。
def test_something(self):
root = "D:/pic200/"
tar = "D:/pic100/"
pic200 = os.listdir(root)
with open("./spiders/100.csv", 'r', encoding='utf-8') as f:
reader = csv.reader(f)
pic_list = list(reader)
for line in pic_list:
name = line[0] + '.jpg'
if name in pic200:
shutil.copy(root + name, tar)
else:
print(name)
用户图片
用户图片的思路和食谱图片的差不多。
def test_secO(self):
root = "D:/touxiang/"
tar = "D:/tx100/"
pic200 = os.listdir(root)
with open("./spiders/id.csv", 'r', encoding='utf-8') as f:
reader = csv.reader(f)
pic_list = list(reader)
for line in pic_list:
name = line[0] + '.jpg'
if name in pic200:
shutil.copy(root + name, tar)
else:
print(name)