天池学习-深度学习入门与实践-2.基于人脸的常见表情识别——数据获取与整理

最新推荐文章于 2024-06-23 21:30:12 发布

-KWOK-

最新推荐文章于 2024-06-23 21:30:12 发布

阅读量821

点赞数

分类专栏：天池AI学习文章标签： python 人脸识别爬虫

本文链接：https://blog.csdn.net/weixin_44554401/article/details/121055696

版权

本文档详细介绍了如何进行人脸表情识别项目的准备工作，包括数据集的下载、解压，以及图片格式统一、数据清洗和嘴唇区域提取的步骤。通过使用爬虫获取图片，OpenCV进行人脸检测和Dlib关键点定位，提取嘴唇区域，为后续的表情识别模型训练提供精准的样本数据。

摘要由CSDN通过智能技术生成

天池学习-深度学习入门与实践-2.基于人脸的常见表情识别——数据获取与整理

这个 Task 会涉及到数据集等文件的下载，请运行以下代码下载相关文件，由于需要对下载的文件进行解压，所以速度会比较慢，请耐心等候。（大概需要 8 分钟左右）

如果你不是第一次运行这个项目，那么就跳过以下代码

print("****************下载文件中。。。")
!wget http://tianchi-media.oss-cn-beijing.aliyuncs.com/dragonball/DL/other/data/Emotion_Recognition_File.zip
print("****************下载完成。。。")

print("****************解压文件中。。。")
!unzip -q -o ./Emotion_Recognition_File.zip -d Emotion_Recognition_File/
print("****************解压完毕***************")

所有下载的文件均在 Emotion_Recognition_File （表情识别的英文名称）文件夹下，以下对各个文件进行说明

img_type_test：放置了不同后缀名的图片，在 3.1 图片格式统一 将会使用到
face_detect_model：放置了人脸检测所需要的模型，在 3.2 数据清洗、3.3 提取嘴唇区域 将会使用到
face_det_img：放置了一些包含人脸的图片和不包含人人脸的图片，在 3.2 数据清洗 将会使用到
mouth_det_img：放置了一些包含人脸的图片，在 3.3 提取嘴唇区域 将会使用到
train_val_data：放置了本训练营为各位读者准备的数据集，将会在下一个 Task 用到
test_img：放置了包含 4 种表情的图片各一张，将会在下一个 Task 用到，我们就是使用这个文件夹里的图片来展示我们的成果

1.项目背景

⼈脸表情识别(facial expression recognition, FER)作为⼈脸识别技术中的⼀个重要组成部分，近年来在⼈机交互、安全、机器⼈制造、⾃动化、医疗、通信和驾驶领域得到了⼴泛的关注，成为学术界和⼯业界的研究热点，是⼈脸属性分析的重点。

2.数据获取

学会使⽤爬⾍爬取图像。
对获得的图⽚数据进⾏整理，包括重命名，格式统⼀。
利⽤⼈脸检测算法删选出有⽤的样本，利⽤关键点检测算法裁剪出⽤于算法训练的嘴唇区域。

免费爬虫深度学习所需爬虫

1 综述类项目与学习资料

1、awesome-spider 地址：awesome-spider
搜集了几乎所有可以爬取的中文网址，从知乎豆瓣到知网，抖音微博到QQ
2、Nyspider 地址：Nyspider
都是各类网址
3、awesome-python-login-model
地址：awesome-python-login-model
模拟各种网址登陆，分析各大网站的登录方式，也包含一些简单的爬虫
4、python-spider
地址：python-spider
包含不少的实战项目
https://github.com/jhao104/proxy_pool
https://github.com/Ehco1996/Python-crawler
2、各大视频网站爬虫
地址：各大视频网站爬虫
Annie是一款以go语言编码的视频下载工具，使用便捷并支持youtube，腾讯视频，抖音等多个网站视频和图像的下载
虽然这个项目可以下载图片，但是我们还是来用它下载视频吧，使用方法很简单：
annie ［可选参数］http://… (视频网址)
3、有三AI刚刚开源了一个深度学习项目，如下：
有三AI深度学习项目
内容包含计算机视觉，语音，自然语言处理，支持caffe，tensorflow，pytorch，mxnet，paddlepaddle，darknet，deeplearning4j，matconvnet，keras，chainer，cntk，lasadge等框架

2 优秀图片/视频项目

1、Google，Baidu，Bing三大搜素引擎图片爬虫
地址：https://github.com/sczhengyabin/Image-Downloader
足够满足小型项目初始数据集的积累(爬几千张高质量图片）命名也非常整齐规范，最大的优势就是稳定

2.1 数据爬取（github我没登上去）

本项目使用的爬虫项目是：https://github.com/sczhengyabin/Image-Downloader ，可以按要求爬取百度、Bing、Google 上的图片，提供了非常人性化的 GUI 方便操作，使用方法如下：

下载爬虫工具
调用GUI界面，配置好参数(关键词，路径，爬取数目等)python image_downloader_gui.py
配置需要爬取的样本数目

3.数据整理

数据整理：主要包括统⼀图片后缀和重命名。
统⼀后缀格式—减少以后写数据 API 时的压⼒、测试图⽚是不是可以正常的读取，及时防⽌未知问题的出现

3.1 图片格式统一

以下代码可以实现对图片格式的统一，我们在 img_type_test 文件下放置了几张测试图片，读者可以运行尝试。『读者也可以上传不同格式（如 jpg、jpeg、png 等）的图片到 img_type_test 文件下，然后运行下面的代码，下面的代码读取每种图片，然后将其转为 jpg 格式，同时会将原始的图片删除』

import os
import sys
import cv2
import numpy as np


def listfiles(rootDir):
    list_dirs = os.walk(rootDir) 
    for root, dirs, files in list_dirs:  # 遍历文件夹下的图片
        for d in dirs:
            print((os.path.join(root, d)))