PYTHON的PIL和Counter实现过滤大部分空白背景的图片
需求
有以下三张图,目标是筛选出img2,排除掉img1和img3。
最初考虑过用for循环遍历每一个像素值,然后对空白像素值进行统计,占比达到总像素点的一定百分比就过滤掉,但是这样会大大的增加计算量,于是打算另辟蹊径。。
准备
用到的函数有:
- Image中的getdata(),它能直接获取图像的像素值,并且每个像素点的四个像素值以元组的形式呈现。getdata()有band参数,默认band是所有,当band=0时,仅返回‘r’ band,即只返回RGB中的R值。
- collections中的Counter,他可以对列表中的元素进行计数,其中的max_common(n)可以返回前n个计数最多的元素。
基本思路
首先获取图像的像素值,然后用max_common获取该图像的计数前几的像素值大小,若前几的像素值均大于200,那么说明这个图像空白值占绝大多数,从而实现过滤。
实现
from PIL import Image
import numpy as np, pandas as pd
from collections import Counter
img1 = Image