人脸跨年龄数据集

1.FG-NET (2002)
下载:http://yanweifu.github.io/FG_NET_data/FGNET.zip
命名规则:078A11.JPG,078人物ID,A为Age简写,11为岁数。
FG-Net训练集有818张图片,测试集有170张图片。此数据集包含了82个人在不同年龄的照片,同时提供了每张图中68个人脸关键点信息。鉴于本数据集跨年龄的特色,FG-Net可用于年龄估计、跨年龄人脸识别、年龄变化推演(age progression)等方向的研究。FG-Net曾是年龄方面最流行的数据集之一【9】,但由于此数据集公布时间较早(2002年)、人脸个数较少,且观察其人脸均为白种人,而且一些早期图片为黑白图片,【9】指出该数据的准确率已趋近饱和。所以近期的论文很少用FG-net做Benchmark。

2. MORPH2 (2006)
下载:http://www.faceaginggroup.com/morph/
论文:https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=1613043
根据论文引用情况,MORPH2数据集是目前最流行的年龄估计数据集之一,【2】【4】【5】等论文均在数据集基础上进行了评测,但【9】指出该数据集的准确率近年也已趋近饱和。MORPH2也是一个跨时间的数据集,收录了同一个人在不同年龄段的图片。该数据集分为商用和学术用版本,学术用版本包括了13000个人的55134张图片,照片收集时间跨度2003-2007年,人物年龄为16-77岁,平均年龄为33岁。MORPH2数据集除年龄外还记录了人物的其他信息,如性别、种族、是否戴眼镜等。

3. Adience (2014)
下载:https://talhassner.github.io/home/projects/Adience/Adience-data.html
论文:https://www.openu.ac.il/home/hassner/Adience/EidingerEnbarHassner_tifs.pdf
Adience数据集包括2284个人的26580张图片。其特点为均为真实场景下拍摄(in the wild),照片受到噪声、姿态、光照等影响很大,旨在解决真实世界中的年龄和性别检测问题,网站上同时提供了原始数据和矫正后的人脸。该数据集使用了区间标注的方法,分为了8个区间:(0-2, 4-6, 8-13, 15-20, 25-32, 38-43, 48-53, 60-)。

4. CACD (2014)
下载:http://bcsiriuschen.github.io/CARC/
论文:http://cmlab.csie.ntu.edu.tw/~sirius42/papers/chen14eccv.pdf
CACD收集了2000个名人的163,446张图片,年龄跨度为16 到 62。截止论文发表时间,是当时最大规模的跨年龄数据集。收集照片的时间跨度为2004-2013年。数据集同时也提供了16个人脸关键点的标注信息。CACD数据集提供者明确指出,虽然该数据集包含人物年龄信息,但只建议使用此数据集做跨年龄人物检索,不建议使用该数据集来做年龄预估。、

5.ChaLearn LAP Dataset (2015 / 2016)
下载:http://chalearnlap.cvc.uab.es/dataset/19/description/
论文:http://www.cbsr.ia.ac.cn/users/jwan/papers/CVPRW2016_JunWan.pdf
LAP(Look At People)竞赛于2015和2016举办了两年,两年数据集规模分别为5000和8000(基于官网)。与其他数据集的标签为真实年龄不同,LAP数据集的标签是外观显示年龄(apparent age),标签制定平均了至少10个人的标注结果,所以每张图片的年龄标签都是一个正态分布。比赛排名中使用的是结合均值和方差的综合误差E-error【3】。LAP数据集在20-40岁的分布相对均匀,在0-15和65-100区间数据集较少。

6. IMDB-WIKI(2015)
下载:https://data.vision.ee.ethz.ch/cvl/rrothe/imdb-wiki/
论文:https://www.vision.ee.ethz.ch/en/publications/papers/proceedings/eth_biwi_01229.pdf
IMDB-WIKI数据集是目前规模最大的年龄数据集之一,【3】的作者提出了本数据集并在其基础上finetune网络,赢得了LAP2015年的冠军。本数据集来源包括IMDB(一个明星网站)和Wikipedia中的两万个人,图片数量分别为460723和 62328。标注方法是找到某个名人的照片,然后通过照片拍摄年份减其出生年份得到其年龄标签。经过观察和及【5】指出,由于数据集标注过程是自动处理的,故标注质量不高,有很多错误内容。在【3】、【5】中,主要使用该数据集进行网络初始训练。下图是提取了几张与笔者同生日名人的图片,可以看到有些图片甚至没有人脸。

7. AFAD (2016)
下载:https://github.com/afad-dataset/tarball
论文:https://www.cv-foundation.org/openaccess/content_cvpr_2016/papers/Niu_Ordinal_Regression_With_CVPR_2016_paper.pdf
数据集【4】规模为164432张脸,其中63680张女性、100752男性。年龄段为15-40岁。该数据集的特点是数据几乎全是中国人。该数据的数据来源为人人网,首先爬取人人网上的图片数据并获取相册所有者的年龄,然后使用人力对错误图片进行过滤。本数据年龄分布也不是很均衡,在最年轻和年纪较大的年龄段数据较少(也好理解,因为该年龄使用人人网的人少)。
根据观察,感觉数据集整体标注效果比较准确,但有一些小图片(22*22)看不清楚,且有很多同一个人的图片几乎完全一样。数据集还有一个特点就是图片截取的较小,只留了较少的脸部,发型和颈部都去除了。其实年龄估计和人的发型、身体等也有一定联系,截取太小将无法使用到这些信息。

8. MegaAge/MegaAge-Asian (2017)
下载:http://mmlab.ie.cuhk.edu.hk/projects/MegaAge/
论文:http://personal.ie.cuhk.edu.hk/~ccloy/files/bmvc_2017_megaage.pdf
MegaAge数据集由商汤发布【2】,总数有41941张图片,同一论文提出的MegaAge-Asian包含40000张亚洲人(绝大部分是东亚人)的图片,两个数据集年龄段都是0-70。数据集人脸的原始来源是MegaFace和YFCC。论文中提到,由于MegaAge-Asian的种族相对单一,故同一年龄估计算法MegaAge-Asian上的表现一般要优于MegaAge数据集上的表现。
经观察,MegaAge-Asian标注结果比较精准,提供的图片大小统一为178*218,在保持比例前提下进行了补边操作,数据集包含了明星和普通人的图片。

9.AGE-DB(2017)
下载:https://ibug.doc.ic.ac.uk/resources/agedb/
论文:https://core.ac.uk/download/pdf/83949017.pdf
AgeDB包含16,488个各种名人的图像,如演员,作家,科学家,政治家,每个图像都注明了身份,年龄和性别属性。 共存在568个不同的科目。 每个科目的平均图像数为29。最低和最高年龄分别为1和101。每个科目的平均年龄范围是50.3岁。

10.UTKFace (2017)
下载:https://susanqq.github.io/UTKFace/
论文:https://arxiv.org/pdf/1702.08423.pdf
UTKFace数据集是一个具有较长年龄跨度(范围从0到116岁)的大型人脸数据集。该数据集包含20,000多张面部图像,其中包含年龄,性别和种族的注释。图像覆盖了姿势,面部表情,光照,遮挡,分辨率等的大变化。该数据集可用于各种任务,例如,面部检测,年龄估计,年龄进展/回归,地标定位等。

11.CAF(2018)
下载:腾讯未公开
论文:https://arxiv.org/pdf/1810.07599.pdf
CAF是腾讯收集的,其包括来自4,668个身份的大约313,986张脸部图像。每个身份都有80面部图像。所有这些图像都经过仔细和手动注释。考虑到缺乏确切的年龄信息,他们利用了公共预训练年龄估计模型DEX [12]预测每个面部图像的粗糙年龄标签。

12.CAFR(2019)
下载:腾讯未公开
论文:https://arxiv.org/pdf/1809.00338.pdf
CAFR总共有来自25,000的1,446,500张面部图像 ,CAFR数据集中的主题。 每个人平均有57.86图像。 应该是目前最大的跨年龄数据库。

13.AGFW-v2(2019)
下载:https://dcnhan.github.io/RL-VAP/
论文:https://arxiv.org/pdf/1606.02254.pdf https://arxiv.org/pdf/1811.11082.pdf
得到的数据集包含36,299个具有年龄的图像10至64年不等。 然后将其分解为11年龄跨度为5岁的年龄组。

14、CAS-PEAL

数据集地址:http://www.jdl.ac.cn/peal/

发布于2008年,CAS-PEAL数据集是中国科学院收集建立的,它主要是为了提供一个大规模的中国人脸数据集用于训练和评估对应东方人的算法,有灰度图和彩色图两个版本。

目前,CAS-PEAL人脸数据库由1040个人(595名男性和445名女性)的99594张图像组成,在特定环境下具有不同的姿势、表情、照明条件、表情以及是否佩戴眼镜等信息。对于每个被拍摄的人,通过9个相机来同时捕获不同姿态的图像,平均每一个人采集了约900张图像。

15.Pubfig(2010)

下载地址:http://www.cs.columbia.edu/CAVE/databases/pubfig/

发布于2010年,这是哥伦比亚大学的公众人物脸部数据集,包含有200个人的58797张人脸图像,主要用于非限制场景下的人脸识别。与LFW相比,这个数据集更大,但是人更少,每个人的图片更多。

16.CASIA WebFace

数据集地址:http://classif.ai/dataset/casia-webface/

发布于2014年,这是李子青实验室开放的国内非常有名的数据集,包含10575个人494414张图。

17.Celeba

数据集地址:http://mmlab.ie.cuhk.edu.hk/projects/CelebA.html

发布于2015年,这是由香港中文大学汤晓鸥教授实验室发布的大型人脸识别数据集。该数据集包含10,177个名人的202,599张人脸图片,人脸属性有40多种,包括是否戴眼镜,是否微笑等,主要用于人脸属性的识别。

18.FaceScrub

数据集地址:http://vintage.winklerbros.net/facescrub.html

发布于2016年,总共包含了530个人的106863张图片,其中男性女性各占265,每个人大概200张图。

19.UMDFaces

数据集地址:http://www.umdfaces.io/

发布于2016年,这个数据集有静态图和视频两部分,其中静态图包含8277个人的367,888张脸,视频包含22,075个视频中的3,107个人的3,735,476张图。同时标注了21个关键点,性别信息,以及人的3个姿态。

20.MegaFace

数据集地址:http://megaface.cs.washington.edu/dataset/download.html

发布于2016年,MegaFace数据集包含一百万张图片,共 690000个不同的人,所有数据都是华盛顿大学从Flickr组织收集。

这是第一个在一百万规模级别的面部识别算法测试基准。现有脸部识别系统仍难以准确识别超过百万的数据量。为了比较现有公开脸部识别算法的准确度,华盛顿大学在2017年底开展了一个名为“MegaFace Challenge”的公开竞赛。这个项目旨在研究当数据库规模提升数个量级时,现有的脸部识别系统能否维持可靠的准确率。

21.MS-Celeb-1M

数据集地址:https://www.msceleb.org/

发布于2016年,这是目前世界上规模最大、水平最高的图像识别赛事之一,由MSRA(微软亚洲研究院)发起,每年定期举办。参赛队伍被要求基于微软云服务,搭建包括人脸检测、对齐、识别的完整人脸识别系统,而且识别系统必须先通过远程实验评估。

训练集合包含10M 图片,具体的操作是从1M个名人中,根据他们的受欢迎程度,选择100K个。然后,利用搜索引擎,给100K个人,每人搜大概100张图片。共得到100K*100=10M个图片。测试集包括1000个名人,这1000个名人来自于1M个明星中随机挑选,每个名人大概有20张图片。

22.VGG Face

数据集地址:

http://www.robots.ox.ac.uk/~vgg/data/vgg_face/

http://www.robots.ox.ac.uk/~vgg/data/vgg_face2/

VGG Face发布于2015年,包括2622个对象,每个对象拥有约1000副静态图像;

VGG Face2发布于2017年,包含了9131个人的3.31百万张图片,平均每一个人有362.6张图。这个数据集人物ID较多,且每个ID包含的图片个数也较多。数据集覆盖了大范围的姿态、年龄和种族,其中约有59.7%的男性。除了身份信息之外,数据集还包括人脸框,5个关键点、以及估计的年龄和姿态。

23.IMDB-Face

数据集地址:https://github.com/fwang91/IMDb-Face#data-download

发布于2018年,包含590000个人,17000000张图,是现在人脸最多的数据集了。

24.Fer2013

数据集地址:https://www.kaggle.com/c/challenges-in-representation-learning-facial-expression-recognition-challenge/data

发布于2013年,该数据集包含共26190张48*48灰度图,图片的分辨率比较低,共6种表情。分别为0 anger生气、1 disgust 厌恶、2 fear 恐惧、3 happy 开心、4 sad 伤心、5 surprised 惊讶、6 normal 中性。

25、RAF

数据集地址:http://www.whdeng.cn/RAF/model1.html

发布于2017年,包含总共29672 张图片,其中7个基本表情和12 个复合表情,而且每张图还提供了5个精确的人脸关键点,年龄范围和性别标注。

26、EmotionNet

数据集地址:http://cbcsl.ece.ohio-state.edu/EmotionNetChallenge/

发布于2017年,共950,000张图,其中包含基本表情,复合表情,以及表情单元的标注。

另外还有一些需要申请的数据集如SCFace等就不再介绍,表情识别目前的关注点已经从实验室环境下转移到具有挑战性的真实场景条件下,研究者们开始利用深度学习技术来解决如光照变化、遮挡、非正面头部姿势等问题,仍然有很多的问题需要解决。

另一方面,尽管目前表情识别技术被广泛研究,但是我们所定义的表情只涵盖了特定种类的一小部分,尤其是面部表情,而实际上人类还有很多其他的表情。表情的研究相对于颜值年龄等要难得多,应用也要广泛的多,相信这几年会不断出现有意思的应用。

27、MORPH

数据集地址:http://www.faceaginggroup.com/morph/

发布于2017年,包括13,000多个人的55,000张图,年龄范围是16到77。

 

 

  • 10
    点赞
  • 35
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值