DALLE2

最新推荐文章于 2024-10-17 12:55:45 发布

爱格白

最新推荐文章于 2024-10-17 12:55:45 发布

阅读量4.6k

点赞数

分类专栏：学习笔记文章标签： pytorch 深度学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zj71hmvx/article/details/124658178

版权

学习笔记专栏收录该内容

40 篇文章

订阅专栏

github库的DALLE2基于OPENAI和pytorch实现
以前学习强化学习的时候接触过一点点OPENAI但是没怎么深入学习
有用到CLIP模型和Unet模型
好然后并不知道CLIP模型是个啥hhh所以先挖坑吧先去学一手CLIP模型

CLIP

这个博主的文介绍了

CLIP也是OpenAI的模型。
预训练了一个图像编码器和一个文本编码器，以预测图像与数据集中的文本配对。
图像和文本的向量被用来构建相似度矩阵
在这里插入图片描述
然后CLIP对不同的文字描述十分敏感
101

虽然CLIP有个很厉害的OCR系统，但是对预训练数据集中未涵盖的图像的泛化能力也很差。一般在识别常见物体方面表现良好，更复杂的任务上则不佳。
CLIP能够快速连接文本和图像，还能同时完成图像分类任务和图像生成任务。Dalle一代好像就是用了CLIP造的生成模型。
；另一篇博文介绍了许多CLIP的用例包含，对于图片内容的审核，图片搜索，图片相似度（！这个居然能识别不同的水印），对象追踪（视频里的对象追踪），对图像自动生成内容描述，甚至还能修复损坏的图像（比如运用了高斯模糊或者高斯噪声）
就感觉下来CLIP还挺厉害的…

博客等级

码龄5年

68
原创

42
点赞

231
收藏

32
粉丝

关注

私信

热门文章

分类专栏

学习笔记 40篇
FYP 4篇
阅读笔记 22篇
实习笔记 5篇

展开全部收起

最新评论

检测PPG信号的峰值
陶陶峡: 整理的很不错呀
语音处理的线性预测
qq_56543781: 计算线性预测系数以最小化语音数据帧上的平方和“预测误差”（“残差信号”），均方误差 (MSE) 。这具有“白化”误差信号的效果（即展平其频谱请问这是为什么呀
Cepstral Analysis 倒谱分析
侯的善愁: 为什么MFCC可以用DCT来估计倒谱信息，而不是用IDCT呢？
检测PPG信号的峰值
爱格白: 确实舒张峰不好处理…这几个都是基于收缩峰的检测的
检测PPG信号的峰值
是指猴子: 这个几个方法是都只能找到收缩缝吗？现在在做脉搏相关的，不知道可不可以根据PPG的方法找峰值？试了下舒张峰感觉不太好找。

大家在看

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。