- 博客(107)
- 资源 (12)
- 收藏
- 关注
原创 【大模型】通俗解读变分自编码器VAE
大模型已经有了突破性的进展,图文的生成质量都越来越高,可控性也越来越强。很多阅读大模型源码的小伙伴会发现,大部分大模型,尤其是CV模型都会用到一个子模型:变分自编码器(VAE),这篇文章就以图像生成为例介绍一下VAE,并且解释它问什么天生适用于图像生成。配合代码尽量做到通俗易懂。
2024-09-29 08:56:03 3689 21
原创 【论文笔记】独属于CV的注意力机制CBAM-Convolutional Block Attention Module
CBAM(Convolutional Block Attention Module)是2018年被提出的,不同于ViT的Attention,CBAM是为CNN量身定做的Attention模块,实现简单、效果好,你值得拥有。
2024-08-28 09:31:35 6604 18
原创 图解Pytorch学习率衰减策略(二)
上一篇文章介绍了一些常用的学习率衰减策略,下面我们再来看看稍微冷门一点的,包括:LambdaLR、PolynomialLR、CyclicLR、CosineAnnealingWarmRestarts、SequentialLR、ChainedScheduler
2024-08-20 09:19:46 674 10
原创 图解Pytorch学习率衰减策略(一)
在深度学习中,学习率是一个非常重要的超参数,它控制了模型在每次权重更新时的步长。学习率衰减策略是指在训练过程中逐步减少学习率,从而使得模型更稳定地收敛到最优解。本文将介绍:LinearLR、StepLR、MultiStepLR、ExponentialLR、CosineAnnealingLR、ReduceLROnPlateau、OneCycleLR
2024-08-12 07:57:32 1306 7
原创 视频生成大模型-可灵-全面测评
可灵是快手开发的对标SORA的视频生成大模型大模型,toC,主打文生视频和图生视频,已经内测了一段时间,但是审核进度很慢,基本排不上。审核通过后,再点击“生成视频”就可以体验了,功能分为文生视频和图生视频,视频分“高性能”和“高表现”,对应不用的“灵感值”,每天平台赠送66个“灵感值”。前景是两个水气球,一个装着红色液体,另一个装着绿色液体,分别从左右飞出,在镜头中部发生碰撞破裂,水花四溅,两种颜色也发生融合。从生成的5s视频来看,可灵的一致性是很好的,没有乱入、抖动,人物的动作也很丝滑。
2024-07-26 07:51:23 1039 5
原创 最像人声的语音合成模型-ChatTTS
最像人声的AI来了!语音开源天花板ChatTTS火速出圈,3天就斩获9k个star。截至发稿前,已经25.9k个star了。这是专门为对话场景设计的语音生成模型,用于LLM助手对话任务、对话语音、视频介绍等,仅支持中英文。硬件要求低,甚至不需要GPU,一台普通PC就能运行。主模型使用了 100,000+ 小时的中文和英文音频数据进行训练。开源的版本是4 万小时基础模型。,这是原项目ChatTTS的地址,不用下,我们要使用的是ChatTTS-ui,是给ChatTTS增加了UI,并打好了包,开包即用。
2024-06-27 08:17:05 963 6
原创 Transformer论文解读
Transformer有多牛逼不用多说,时隔7年我们再来看看论文原文,看看这篇深刻改变世界的文章都说了什么。当然逐字逐句解读已经意义不大,我们只列考点。
2024-06-11 09:30:20 1564 7
原创 Transformer:加性注意力还是点积注意力?这是个问题~
加性注意力(Additive Attention)和点积注意力(Multiplicative Attention,也称为缩放点积注意力,Scaled Dot-Product Attention)是两种常见的注意力机制,用于计算不同序列元素之间的相关性。加性注意力最初用在seq2seq;点积注意力最初用在Transformer。总的来说点积注意力更符合当下的NLP模型,使用的更广泛。
2024-06-04 10:00:05 1355 10
原创 ubuntu安装Stable Video Diffusion(SVD)让图片动起来
Stable Video Diffusion可以将图片变成几秒的视频,从名字就能看出来它使用了Stable Diffusion。现在这个项目还处在早期实验阶段,预训练模型也是效果感人,不过可以试着自己训练。这里先只介绍SVD的安装,目标是项目跑起来,能把一张图片变成3秒左右的视频,下面开始。
2024-05-27 09:04:04 1462 10
原创 手把手教你用LoRA训练自己的Stable Diffusion模型
StableDiffusion大家已经很熟悉了,那么如何训练自己的sd模型呢,今天我就介绍一下用LoRA训练sd的方法。我们以Chilloutmix为例,Chilloutmix可以生成好看的小姐姐。为了实验LoRA的能力,我们用小哥哥的图片对它进行微调,看效果如何。
2024-05-20 09:23:10 5200 9
原创 如何训练一个大模型:LoRA篇
现在有很多开源的大模型,他们一般都是通用的,这就意味着这些开源大模型在特定任务上可能力不从心。为了适应我们的下游任务,就需要对预训练模型进行微调。全参数微调有两个问题:在新的数据集上训练,会破坏大模型原来的能力,使其泛化能力急剧下降;而且现在的模型参数动辄几十亿上百亿,要执行全参数微调的话,他贵啊!!于是LoRA出现了,LoRA(Low-Rank Adaptation)是微软提出的一种参数有效的微调方法,可以降低微调占用的显存以及更轻量化的迁移。同时解决了上述两个问题,那它凭什么这么厉害?往下看吧。
2024-05-13 09:01:45 8129 13
原创 一张图说清楚:大模型“大”在哪?ChatGLM模型结构详解
大型模型的神秘并不是不可透视的,今天我们以ChatGLM-6B为例,解析一下模型结构和代码。你会发现,大模型结构并没有那么神秘,相反还挺清晰的,就是Transformer的decoder改造而来的。我们还会看到模型中参数最密集的部分,这也是模型“大”的原因。
2024-05-06 08:29:08 5090 12
原创 大模型都在用的:旋转位置编码
绝对位置编码和相对位置编码都有局限性,比如绝对位置编码不能直接表征token的相对位置关系;相对位置编码过于复杂,影响效率。于是诞生了一种用绝对位置编码的方式实现相对位置编码的编码方式——旋转位置编码(RotaryPositionEmbedding,RoPE),兼顾效率和相对位置关系。RoPE的核心思想是通过旋转的方式将位置信息编码到每个维度,从而使得模型能够捕捉到序列中元素的相对位置信息。现在已经在很多大模型证明了其有效性,比如ChatGLM、LLaMA等。
2024-04-26 08:55:27 4607 13
原创 爱因斯坦求和约定 含代码
爱因斯坦求和约定(Einstein summation convention)是一种标记的约定, 又称为爱因斯坦标记法(Einstein notation), 可以基于一些约定简写格式表示多维线性代数数组操作,让表达式更加简洁明了。
2024-04-10 08:29:16 1524 9
原创 大模型必备向量数据库-Milvus的安装过程
Milvus是一个开源的向量相似度搜索引擎,专注于大规模向量数据的快速相似度搜索。本文将介绍Milvus的安装,跟着走,肯定能装上(#^.^#)
2024-02-24 08:36:07 3330 5
原创 Sora一出 哪里又要裁员了?
上班前夕迎来大新闻,那就是Sora了,Sora是什么,有什么牛逼之处,怎么实现的,我们跟着官方文档透露出来的一点点信息捋一捋。
2024-02-20 09:00:35 3482 25
原创 Faiss为啥这么快?原来是量化器在做怪!
Faiss(Facebook AI Similarity Search)是一个面向相似性搜索和聚类的开源库,专注于高维向量的快速相似性搜索。该库提供了一系列高效的算法和数据结构,可用于处理大规模高维向量数据,广泛应用于信息检索、机器学习和深度学习等领域。本文主要介绍Faiss中包含的量化器,量化器可以将高维向量映射到低维码本(codebook)以便进行快速近似最近邻搜索。当然在介绍量化器之前还有说一些前置的概念。
2024-02-18 08:22:14 2012 6
原创 【大模型】公主大人,别再用jieba做分词了!看看隔壁ChatGLM用了什么高科技!
ChatGLM是优秀的国产开源大模型,研究的人也比较多,要用它完成自己的任务,还是需要了解它的一些玩法,细节还是很多的。ChatGLM已经更新了几个版本,我就从第一版代码开始记录笔记,后面的版本都是在前一版本进行修改,不会有天翻地覆的变化,所以看到新版本的时候只需要关注变化就可以啦。大模型的内容肯定是很多的,就从比较前置的Tokenizer开始吧。
2024-01-29 08:53:22 2030 9
原创 【OpenCV】仿射变换中cv2.estimateAffine2D 的原理
cv2.estimateAffine2D是 OpenCV 库中的一个函数,用于估计两个二维点集之间的仿射变换矩阵。即第一个点集经仿射变换转换到第二个点集需要的操作,包括缩放、旋转和平移。
2023-11-20 11:29:38 4905 4
原创 【OpenCV】计算视频的光流并跟踪物体calcOpticalFlowPyrLK
计算光流可以使用OpenCV的calcOpticalFlowPyrLK方法,cv2.calcOpticalFlowPyrLK是OpenCV库中的一个函数,用于计算稀疏光流。它实现的是Lucas-Kanade方法,这是一种常用的光流计算方法。光流是图像中物体运动的近似表示,它描述了图像中每个像素点在连续两帧之间的移动。Lucas-Kanade方法假设图像中的一个小邻域内的所有像素在运动上是一致的(即具有相同的光流)。
2023-11-09 08:30:10 2829
原创 一文搞懂Transformer的位置编码
本文介绍Transformer的位置编码,有图有表有推导,看不懂你打我!!!在Transformer出现以前,NLP任务大多是以RNN、LSTM为代表的循环处理方式,即一个token一个token的输入到模型当中。这种设计存在天生的缺陷。为了解决这些缺陷,Transformer把token的顺序信号加到词向量上帮助模型学习这些信息,这就位置编码(Positional Encoding)。接下来的内容不会涉及Self-Attention等牛逼的创新设计,只讨论位置编码,希望对大家有所帮助。
2023-10-08 09:19:52 13173 22
原创 【Rust】文件系统
本文将介绍Rust的文件系统,涵盖文件读写、目录遍历,并给出代码示例。文件读写实践:读取文件的字符串行避免读取写入同一文件使用内存映射随机访问文件目录遍历实践:过去 24 小时内修改过的文件名查找给定路径的循环递归查找重名文件使用给定断言递归查找所有文件跳过隐藏文件遍历目录在给定深度的目录,递归计算文件大小递归查找所有 png 文件忽略文件名大小写,使用给定模式查找所有文件
2023-10-05 07:07:25 2368 4
原创 【Rust】操作日期与时间
Rust的时间操作主要用到chrono库,接下来我将简单选一些常用的操作进行介绍,如果想了解更多细节,请查看官方文档。
2023-09-26 15:02:22 2984 5
原创 torch.Storage()是什么?和torch.Tensor()有什么区别?
torch.Tensor()大家都很熟悉,torch中操作的数据类型都是Tensor。Storage在实际使用中却很少接触,但它却非常重要,因为Tensor真正的数据存储在Storage中,接下来我将结合代码简单的介绍一下Storage。
2023-09-15 11:06:30 550 5
原创 【论文笔记】图像修复MPRNet:Multi-Stage Progressive Image Restoration 含代码解析
恢复图像任务,需要在空间细节和高级上下文特征之间取得复杂的平衡。于是作者设计了一个多阶段的模型,模型首先使用编解码器架构来学习上下文的特征,然后将它们与保留局部信息的高分辨率分支结合起来。
2023-07-18 07:48:45 13022 29
原创 万字长文解读图像超分辨率 Real-ESRGAN 论文笔记+代码阅读
深度学习超分模型有几个里程碑:SRCNN > SRGAN > ESRGAN > Real-ESRGAN,SRCNN 和SRGAN 有些古老了,现在基本用不上,Real-ESRGAN是在ESRGAN的基础上做的升级,于是我们主要介绍Real-ESRGAN,用ESRGAN作为补充。
2023-07-10 07:00:00 18890 12
原创 openEuler操作系统禁用 Nouveau
Liunx系统安装NVIDIA显卡驱动时需要禁用Nouveau,openEuler操作系统也不例外,但是网上openEuler操作系统如何禁用Nouveau的资料比较少,而且基本都不靠谱,我找到一个管用的方法,记录一下。
2023-06-27 13:37:08 958 6
原创 提取图像特征方法总结 是那种很传统的方法~
本文对计算机视觉传统方法中的一些特征提取方法进行了总结,主要包括有:SIFT(尺度不变特征变换)、HOG(方向梯度直方图)、SURF、ORB、LBP、HAAR。
2023-04-15 17:12:23 12393 6
原创 万字长文解读Stable Diffusion的核心插件—ControlNet
ControlNet在大型预训练扩散模型(Stable Diffusion)的基础上实现了更多的输入条件,如边缘映射、分割映射和关键点等图片加上文字作为Prompt生成新的图片,同时也是stable-diffusion-webui的重要插件。ControlNet因为使用了冻结参数的Stable Diffusion和零卷积,使得即使使用个人电脑在小的数据集上fine-tuning效果也不会下降,从而实现了以端到端方式学习特定任务的条件目的。
2023-04-14 17:30:53 26222 39
原创 手把手教你在linux中部署stable-diffusion-webui
本文介绍stable-diffusion-webui的安装步骤,我以linux系统为例介绍,windows系统大同小异,安装期间没有用到梯子,安装目录/opt/stable-diffusion-webui/。
2023-04-13 12:14:19 10834 9
原创 用GPT-4写代码不用翻墙了?Cursor告诉你:可以~~
Cursor主要功能是根据用户的描述写代码或者进行对话,对话的范围仅限技术方面。优点是不用翻墙、不需要账号。Cursor基于GPT模型,具体什么版本不祥,有人说是GPT-4,但是官方没有证实,但这并不影响Cursor的强大。目前Cursor是免费的,但是偶尔会出现"Maximum Capacity",据我观察并不频繁;如果不想看见这个提示可以付费,每月20美金,具体怎么支付我就不介绍了,反正你也不会花钱。
2023-03-29 16:44:47 44163 71
原创 ChatGPT应用场景与工具推荐
本文会简单介绍ChatGPT的特点、局限以及存在的问题,相信随着科技的发展,ChatGPT功能会越来越强大,也会有更多类似ChatGPT的大模型出现服务用户。以下所有介绍及其演示均基于2023年3月的ChatGPT进行。
2023-03-22 10:22:51 17950 19
原创 爱因斯坦求和约定 含代码einsum
爱因斯坦求和约定(Einstein summation convention)是一种标记的约定, 又称为爱因斯坦标记法(Einstein notation), 可以基于一些约定简写格式表示多维线性代数数组操作,让表达式更加简洁明了。
2023-03-08 16:53:52 4433 5
原创 【论文笔记】图像修复Learning Joint Spatial-Temporal Transformations for Video Inpainting
本文提出时空转换网络STTN(Spatial-Temporal Transformer Network)。具体来说,是通过自注意机制同时填补所有输入帧中的缺失区域,并提出通过时空对抗性损失来优化STTN。为了展示该模型的优越性,我们使用标准的静止掩模和更真实的运动物体掩模进行了定量和定性的评价。
2023-02-17 12:57:21 12320 15
原创 Pytorch优化器全总结(四)常用优化器性能对比 含代码
常用的优化器我已经用三篇文章介绍完了,现在我将对比一下这些优化器的收敛速度。下面我将简单介绍一下要对比的优化器,每种我只用一到两句话介绍,详细介绍请跳转上面的链接,每种优化器都详细介绍过。
2023-01-16 08:08:31 20455 23
原创 Pytorch优化器全总结(三)牛顿法、BFGS、L-BFGS 含代码
这篇文章是优化器系列的第三篇,主要介绍牛顿法、BFGS和L-BFGS,其中BFGS是拟牛顿法的一种,而L-BFGS是对BFGS的优化,那么事情还要从牛顿法开始说起。L-BFGS即Limited-memory BFGS。 L-BFGS的基本思想就是通过存储前m次迭代的少量数据来替代前一次的矩阵,从而大大减少数据的存储空间。
2023-01-09 08:19:12 34691 52
原创 【目标检测】YOLOv5能识别英雄和小兵?原理解析~
YOLOv5是在YOLOv3和YOLOv4基础上进行的升级,没有颠覆性的改变,增加的tricks也要看实际情况使用。YOLOv5主要是给出了一个目标检测框架的落地方案,方便工作落地。YOLOv5原版代码中给出的网络文件是yaml格式,非常不直观,这里我们直接使用pytorch改写的版本介绍。
2022-12-21 09:46:33 20037 3
原创 百度图片源码流出~按照颜色搜图片~提取图片主体颜色
百度图片中有一个按照颜色搜图片的功能,其核心算法是提取图片主体颜色法,本文将使用python实现提取图片主体颜色算法。
2022-12-14 14:02:47 14896 3
person_pose_json.zip
2019-12-26
bazel-0.80-dist
2019-02-01
机器学习:实用案例解析(中文版,带完整书签)
2019-01-07
机器学习实战:基于Scikit-Learn和TensorFlow
2018-11-21
程序员的数学 三册全
2018-09-30
高等数学 下册
2018-09-30
高等数学 上册
2018-09-30
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人