- https://arxiv.org/pdf/2401.07519#page=9.73
- https://github.com/instantX-research/InstantID?tab=readme-ov-file
- https://github.com/instantX-research/InstantID/pull/89/files
- 问题引入
- 目标是生成和reference图片相符合的图片,特别是人脸;
- 现在基于微调模型的方法例如dreambooth,text inversion,lora等需要多张参考图片,且新的reference图片就需要重新进行微调;
- 而ip-adapter这类的方法可以不用在inference的时候进行微调,但是依赖的是clip的image encoder,约束不强;
- 本文的方法包含两部分条件,strong semantic and weak spatial conditions,也就是面部图片+landmark图片+text
- methods
- ID Embedding:使用人脸识别模型或者reid模型提取ID Embedding;
- Image Adapter:和ip-adapter类似;
- IdentityNet:controlnet,但是有一些变化,1)使用五个人脸关键点two for the eyes, one for the nose, and two for the mouth,2)cross attention只以id embedding作为条件,不包含text embedding;
- 实验
- 数据:LAION-face 50million+自收集10million
- id embedding使用antelopev2 https://github.com/deepinsight/insightface