基于 PyTorch 的人脸关键点检测

最新推荐文章于 2024-07-30 15:25:11 发布

奔向理想的星辰大海

最新推荐文章于 2024-07-30 15:25:11 发布

阅读量739

点赞数 27

分类专栏：架构 Java 文章标签： pytorch 人工智能 python

本文链接：https://blog.csdn.net/wjianwei666/article/details/140512875

版权

数据集

在本教程中，我们将使用官方的DLib数据集，其中包含6666张尺寸不同的图像。此外，labels_ibug_300W_train.xml（随数据集提供）包含每张人脸的68个关键点的坐标。下面的脚本将在Colab笔记本中下载数据集并解压缩。

if not os.path.exists('/content/ibug_300W_large_face_landmark_dataset'):
    !wget http://dlib.net/files/data/ibug_300W_large_face_landmark_dataset.tar.gz
    !tar -xvzf 'ibug_300W_large_face_landmark_dataset.tar.gz'    
    !rm -r 'ibug_300W_large_face_landmark_dataset.tar.gz'

这是数据集中的一张样本图像。我们可以看到，人脸只占整个图像的一小部分。如果我们将完整图像输入神经网络，它也会处理背景（无关信息），这会使模型难以学习。因此，我们需要裁剪图像，仅输入人脸部分。

数据集中的样本图像和关键点

数据预处理

为了防止神经网络过拟合训练数据集，我们需要随机变换数据集。我们将对训练和验证数据集应用以下操作：

由于人脸只占整个图像的一小部分，所以裁剪图像并仅使用人脸进行训练。
将裁剪后的人脸调整为（224x224）的图像。
随机改变调整后的人脸的亮度和饱和度。
在上述三个转换之后，随机旋转人脸。
将图像和关键点转换为torch张量，并在[-1, 1]之间进行归一化。

class Transforms():
    def __init__(self):
        pass
    
    def rotate(self, image, landmarks, angle):
        angle = random.uniform(-angle, +angle)

        transformation_matrix = torch.tensor([
            [+cos(radians(angle)), -sin(radians(angle))], 
            [+sin(radians(angle)), +cos(radians(angle))]
        ])

        image = imutils.rotate(np.array(image), angle)

        landmarks = landmarks - 0.5
        new_landmarks = np.matmul(landmarks, transformation_matrix)
        new_landmarks = new_landmarks + 0.5
        return Image.fromarray(image), new_landmarks

    def resize(self, image, landmarks, img_size):
        image = TF.resize(image, img_size)
        return image, landmarks

    def color_jitter(self, image, landmarks):
        color_jitter = transforms.ColorJitter(brightness=0.3, 
                                              contrast=0.3,
                                              saturation=0.3, 
                                              hue=0.1)
        image = color_jitter(image)
        return image, landmarks

    def crop_face(self, image, landmarks, crops):
        left = int(crops['left'])
        top = int(crops['top'])
        width = int(crops['width&#