自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(104)
  • 资源 (12)
  • 收藏
  • 关注

原创 最像人声的语音合成模型-ChatTTS

最像人声的AI来了!语音开源天花板ChatTTS火速出圈,3天就斩获9k个star。截至发稿前,已经25.9k个star了。这是专门为对话场景设计的语音生成模型,用于LLM助手对话任务、对话语音、视频介绍等,仅支持中英文。硬件要求低,甚至不需要GPU,一台普通PC就能运行。主模型使用了 100,000+ 小时的中文和英文音频数据进行训练。开源的版本是4 万小时基础模型。,这是原项目ChatTTS的地址,不用下,我们要使用的是ChatTTS-ui,是给ChatTTS增加了UI,并打好了包,开包即用。

2024-06-27 08:17:05 606 5

原创 Transformer论文解读

Transformer有多牛逼不用多说,时隔7年我们再来看看论文原文,看看这篇深刻改变世界的文章都说了什么。当然逐字逐句解读已经意义不大,我们只列考点。

2024-06-11 09:30:20 900 7

原创 Transformer:加性注意力还是点积注意力?这是个问题~

加性注意力(Additive Attention)和点积注意力(Multiplicative Attention,也称为缩放点积注意力,Scaled Dot-Product Attention)是两种常见的注意力机制,用于计算不同序列元素之间的相关性。加性注意力最初用在seq2seq;点积注意力最初用在Transformer。总的来说点积注意力更符合当下的NLP模型,使用的更广泛。

2024-06-04 10:00:05 1164 10

原创 ubuntu安装Stable Video Diffusion(SVD)让图片动起来

Stable Video Diffusion可以将图片变成几秒的视频,从名字就能看出来它使用了Stable Diffusion。现在这个项目还处在早期实验阶段,预训练模型也是效果感人,不过可以试着自己训练。这里先只介绍SVD的安装,目标是项目跑起来,能把一张图片变成3秒左右的视频,下面开始。

2024-05-27 09:04:04 1198 10

原创 手把手教你用LoRA训练自己的Stable Diffusion模型

StableDiffusion大家已经很熟悉了,那么如何训练自己的sd模型呢,今天我就介绍一下用LoRA训练sd的方法。我们以Chilloutmix为例,Chilloutmix可以生成好看的小姐姐。为了实验LoRA的能力,我们用小哥哥的图片对它进行微调,看效果如何。

2024-05-20 09:23:10 2747 8

原创 如何训练一个大模型:LoRA篇

现在有很多开源的大模型,他们一般都是通用的,这就意味着这些开源大模型在特定任务上可能力不从心。为了适应我们的下游任务,就需要对预训练模型进行微调。全参数微调有两个问题:在新的数据集上训练,会破坏大模型原来的能力,使其泛化能力急剧下降;而且现在的模型参数动辄几十亿上百亿,要执行全参数微调的话,他贵啊!!于是LoRA出现了,LoRA(Low-Rank Adaptation)是微软提出的一种参数有效的微调方法,可以降低微调占用的显存以及更轻量化的迁移。同时解决了上述两个问题,那它凭什么这么厉害?往下看吧。

2024-05-13 09:01:45 3144 13

原创 一张图说清楚:大模型“大”在哪?ChatGLM模型结构详解

大型模型的神秘并不是不可透视的,今天我们以ChatGLM-6B为例,解析一下模型结构和代码。你会发现,大模型结构并没有那么神秘,相反还挺清晰的,就是Transformer的decoder改造而来的。我们还会看到模型中参数最密集的部分,这也是模型“大”的原因。

2024-05-06 08:29:08 3447 12

原创 大模型都在用的:旋转位置编码

绝对位置编码和相对位置编码都有局限性,比如绝对位置编码不能直接表征token的相对位置关系;相对位置编码过于复杂,影响效率。于是诞生了一种用绝对位置编码的方式实现相对位置编码的编码方式——旋转位置编码(RotaryPositionEmbedding,RoPE),兼顾效率和相对位置关系。RoPE的核心思想是通过旋转的方式将位置信息编码到每个维度,从而使得模型能够捕捉到序列中元素的相对位置信息。现在已经在很多大模型证明了其有效性,比如ChatGLM、LLaMA等。

2024-04-26 08:55:27 2190 13

原创 爱因斯坦求和约定 含代码

爱因斯坦求和约定(Einstein summation convention)是一种标记的约定, 又称为爱因斯坦标记法(Einstein notation), 可以基于一些约定简写格式表示多维线性代数数组操作,让表达式更加简洁明了。

2024-04-10 08:29:16 1006 9

原创 三十个中文AI对话网站推荐

现在国内能用到的大模型就是国产和套壳两种。对于中文任务,这些大模型功能都大同小异,能力也相差不大,扩写、润色、写论文都够用了,写代码的话肯定还是老外的大模型更靠谱些。 如果确实觉得国产大模型不够劲,你可以搞个虚拟手机号,直接注册OpenAI,这里不介绍,我怕这篇文章无了。或者下面的工具找一个充会员,做一个尊贵VVVIP用户。

2024-04-02 08:17:18 6525 2

原创 大模型必备向量数据库-Milvus的安装过程

Milvus是一个开源的向量相似度搜索引擎,专注于大规模向量数据的快速相似度搜索。本文将介绍Milvus的安装,跟着走,肯定能装上(#^.^#)

2024-02-24 08:36:07 3042 5

原创 Sora一出 哪里又要裁员了?

上班前夕迎来大新闻,那就是Sora了,Sora是什么,有什么牛逼之处,怎么实现的,我们跟着官方文档透露出来的一点点信息捋一捋。

2024-02-20 09:00:35 3436 25

原创 Faiss为啥这么快?原来是量化器在做怪!

Faiss(Facebook AI Similarity Search)是一个面向相似性搜索和聚类的开源库,专注于高维向量的快速相似性搜索。该库提供了一系列高效的算法和数据结构,可用于处理大规模高维向量数据,广泛应用于信息检索、机器学习和深度学习等领域。本文主要介绍Faiss中包含的量化器,量化器可以将高维向量映射到低维码本(codebook)以便进行快速近似最近邻搜索。当然在介绍量化器之前还有说一些前置的概念。

2024-02-18 08:22:14 1256 6

原创 【大模型】公主大人,别再用jieba做分词了!看看隔壁ChatGLM用了什么高科技!

ChatGLM是优秀的国产开源大模型,研究的人也比较多,要用它完成自己的任务,还是需要了解它的一些玩法,细节还是很多的。ChatGLM已经更新了几个版本,我就从第一版代码开始记录笔记,后面的版本都是在前一版本进行修改,不会有天翻地覆的变化,所以看到新版本的时候只需要关注变化就可以啦。大模型的内容肯定是很多的,就从比较前置的Tokenizer开始吧。

2024-01-29 08:53:22 1675 9

原创 【OpenCV】仿射变换中cv2.estimateAffine2D 的原理

cv2.estimateAffine2D是 OpenCV 库中的一个函数,用于估计两个二维点集之间的仿射变换矩阵。即第一个点集经仿射变换转换到第二个点集需要的操作,包括缩放、旋转和平移。

2023-11-20 11:29:38 3956 4

原创 【OpenCV】计算视频的光流并跟踪物体calcOpticalFlowPyrLK

计算光流可以使用OpenCV的calcOpticalFlowPyrLK方法,cv2.calcOpticalFlowPyrLK是OpenCV库中的一个函数,用于计算稀疏光流。它实现的是Lucas-Kanade方法,这是一种常用的光流计算方法。光流是图像中物体运动的近似表示,它描述了图像中每个像素点在连续两帧之间的移动。Lucas-Kanade方法假设图像中的一个小邻域内的所有像素在运动上是一致的(即具有相同的光流)。

2023-11-09 08:30:10 2318

原创 一文搞懂Transformer的位置编码

本文介绍Transformer的位置编码,有图有表有推导,看不懂你打我!!!在Transformer出现以前,NLP任务大多是以RNN、LSTM为代表的循环处理方式,即一个token一个token的输入到模型当中。这种设计存在天生的缺陷。为了解决这些缺陷,Transformer把token的顺序信号加到词向量上帮助模型学习这些信息,这就位置编码(Positional Encoding)。接下来的内容不会涉及Self-Attention等牛逼的创新设计,只讨论位置编码,希望对大家有所帮助。

2023-10-08 09:19:52 8807 16

原创 【Rust】文件系统

本文将介绍Rust的文件系统,涵盖文件读写、目录遍历,并给出代码示例。文件读写实践:读取文件的字符串行避免读取写入同一文件使用内存映射随机访问文件目录遍历实践:过去 24 小时内修改过的文件名查找给定路径的循环递归查找重名文件使用给定断言递归查找所有文件跳过隐藏文件遍历目录在给定深度的目录,递归计算文件大小递归查找所有 png 文件忽略文件名大小写,使用给定模式查找所有文件

2023-10-05 07:07:25 2211 4

原创 【Rust】操作日期与时间

Rust的时间操作主要用到chrono库,接下来我将简单选一些常用的操作进行介绍,如果想了解更多细节,请查看官方文档。

2023-09-26 15:02:22 2704 5

原创 torch.Storage()是什么?和torch.Tensor()有什么区别?

torch.Tensor()大家都很熟悉,torch中操作的数据类型都是Tensor。Storage在实际使用中却很少接触,但它却非常重要,因为Tensor真正的数据存储在Storage中,接下来我将结合代码简单的介绍一下Storage。

2023-09-15 11:06:30 437 5

原创 【论文笔记】图像修复MPRNet:Multi-Stage Progressive Image Restoration 含代码解析

恢复图像任务,需要在空间细节和高级上下文特征之间取得复杂的平衡。于是作者设计了一个多阶段的模型,模型首先使用编解码器架构来学习上下文的特征,然后将它们与保留局部信息的高分辨率分支结合起来。

2023-07-18 07:48:45 12443 29

原创 万字长文解读图像超分辨率 Real-ESRGAN 论文笔记+代码阅读

深度学习超分模型有几个里程碑:SRCNN > SRGAN > ESRGAN > Real-ESRGAN,SRCNN 和SRGAN 有些古老了,现在基本用不上,Real-ESRGAN是在ESRGAN的基础上做的升级,于是我们主要介绍Real-ESRGAN,用ESRGAN作为补充。

2023-07-10 07:00:00 15566 12

原创 openEuler操作系统禁用 Nouveau

Liunx系统安装NVIDIA显卡驱动时需要禁用Nouveau,openEuler操作系统也不例外,但是网上openEuler操作系统如何禁用Nouveau的资料比较少,而且基本都不靠谱,我找到一个管用的方法,记录一下。

2023-06-27 13:37:08 829 6

原创 FFMPEG常用命令 音视频合并

本文将用几个实例,介绍ffmpeg命令的综合使用,主要涉及音频处理、视频处理和音视频合成。

2023-05-29 11:33:06 17977 3

原创 提取图像特征方法总结 是那种很传统的方法~

本文对计算机视觉传统方法中的一些特征提取方法进行了总结,主要包括有:SIFT(尺度不变特征变换)、HOG(方向梯度直方图)、SURF、ORB、LBP、HAAR。

2023-04-15 17:12:23 9835 6

原创 万字长文解读Stable Diffusion的核心插件—ControlNet

ControlNet在大型预训练扩散模型(Stable Diffusion)的基础上实现了更多的输入条件,如边缘映射、分割映射和关键点等图片加上文字作为Prompt生成新的图片,同时也是stable-diffusion-webui的重要插件。ControlNet因为使用了冻结参数的Stable Diffusion和零卷积,使得即使使用个人电脑在小的数据集上fine-tuning效果也不会下降,从而实现了以端到端方式学习特定任务的条件目的。

2023-04-14 17:30:53 24128 39

原创 手把手教你在linux中部署stable-diffusion-webui

本文介绍stable-diffusion-webui的安装步骤,我以linux系统为例介绍,windows系统大同小异,安装期间没有用到梯子,安装目录/opt/stable-diffusion-webui/。

2023-04-13 12:14:19 9881 9

原创 用GPT-4写代码不用翻墙了?Cursor告诉你:可以~~

Cursor主要功能是根据用户的描述写代码或者进行对话,对话的范围仅限技术方面。优点是不用翻墙、不需要账号。Cursor基于GPT模型,具体什么版本不祥,有人说是GPT-4,但是官方没有证实,但这并不影响Cursor的强大。目前Cursor是免费的,但是偶尔会出现"Maximum Capacity",据我观察并不频繁;如果不想看见这个提示可以付费,每月20美金,具体怎么支付我就不介绍了,反正你也不会花钱。

2023-03-29 16:44:47 43254 71

原创 ChatGPT应用场景与工具推荐

本文会简单介绍ChatGPT的特点、局限以及存在的问题,相信随着科技的发展,ChatGPT功能会越来越强大,也会有更多类似ChatGPT的大模型出现服务用户。以下所有介绍及其演示均基于2023年3月的ChatGPT进行。

2023-03-22 10:22:51 17523 19

原创 爱因斯坦求和约定 含代码einsum

爱因斯坦求和约定(Einstein summation convention)是一种标记的约定, 又称为爱因斯坦标记法(Einstein notation), 可以基于一些约定简写格式表示多维线性代数数组操作,让表达式更加简洁明了。

2023-03-08 16:53:52 4320 5

原创 pip命令大全 含换源方法

本文记录了大多数pip命令及使用方法 包括换源方法

2023-02-23 10:17:56 7011 8

原创 【论文笔记】图像修复Learning Joint Spatial-Temporal Transformations for Video Inpainting

本文提出时空转换网络STTN(Spatial-Temporal Transformer Network)。具体来说,是通过自注意机制同时填补所有输入帧中的缺失区域,并提出通过时空对抗性损失来优化STTN。为了展示该模型的优越性,我们使用标准的静止掩模和更真实的运动物体掩模进行了定量和定性的评价。

2023-02-17 12:57:21 12183 15

原创 人脸伪造DFDC数据集下载 附网盘地址

DFDC数据集体积高达472GB,包括了119,197个视频,每个视频时长都为10秒。472GB的数据集需要从Kaggle对于有的小伙伴还是有困难的,于是我把数据集放到了百度网盘,

2023-02-08 11:28:11 9714 30

原创 Pytorch优化器全总结(四)常用优化器性能对比 含代码

常用的优化器我已经用三篇文章介绍完了,现在我将对比一下这些优化器的收敛速度。下面我将简单介绍一下要对比的优化器,每种我只用一到两句话介绍,详细介绍请跳转上面的链接,每种优化器都详细介绍过。

2023-01-16 08:08:31 19272 23

原创 Pytorch优化器全总结(三)牛顿法、BFGS、L-BFGS 含代码

这篇文章是优化器系列的第三篇,主要介绍牛顿法、BFGS和L-BFGS,其中BFGS是拟牛顿法的一种,而L-BFGS是对BFGS的优化,那么事情还要从牛顿法开始说起。L-BFGS即Limited-memory BFGS。 L-BFGS的基本思想就是通过存储前m次迭代的少量数据来替代前一次的矩阵,从而大大减少数据的存储空间。

2023-01-09 08:19:12 32708 52

原创 【目标检测】YOLOv5能识别英雄和小兵?原理解析~

YOLOv5是在YOLOv3和YOLOv4基础上进行的升级,没有颠覆性的改变,增加的tricks也要看实际情况使用。YOLOv5主要是给出了一个目标检测框架的落地方案,方便工作落地。YOLOv5原版代码中给出的网络文件是yaml格式,非常不直观,这里我们直接使用pytorch改写的版本介绍。

2022-12-21 09:46:33 19773 3

原创 百度图片源码流出~按照颜色搜图片~提取图片主体颜色

百度图片中有一个按照颜色搜图片的功能,其核心算法是提取图片主体颜色法,本文将使用python实现提取图片主体颜色算法。

2022-12-14 14:02:47 14770 3

原创 【目标检测】IoU、GIoU、DIoU、CIoU、EIoU 5大评价指标

在目标检测任务中,常用到一个指标IoU,即交并比,IoU可以很好的描述一个目标检测模型的好坏。在训练阶段IoU可以作为anchor-based方法中,划分正负样本的依据;同时也可用作损失函数;在推理阶段,NMS中会用到IoU。同时IoU有着比较严重的缺陷,于是出现了GIoU、DIoU、CIoU、EIoU,下面我们一起看一下这几种IoU。

2022-12-08 07:42:25 33942 5

原创 【目标检测】英雄联盟能用YOLOv5实时目标检测了 支持onnx推理

dcmyolo(dreams create miracles),中文:大聪明目标检测工具包。该项目基于pytorch搭建,构建的目的是提供一个拥有更好性能的 YOLO版本,同时拥有丰富的中文教程和源码细节解读,提供算法工具箱,给出不同体量模型的实验数据,为算法落地带来便利。项目本着方便开发者的目的,开箱即用,推理阶段直接将dcmyolo目录考到项目中,实例化一个类,然后调用即可。下面我将以检测英雄联盟中的英雄、小兵和塔为案例,仔细介绍dcmyolo的使用方法。

2022-11-25 15:12:01 34160 31

原创 常见的机器学习算法的计算复杂度

计算的复杂度是一个特定算法在运行时所消耗的计算资源(时间和空间)的度量。计算复杂度又分为两类,时间复杂度和空间复杂度,本文将介绍两种复杂度,并提供8种算法的复杂度。

2022-11-22 08:49:19 1268

ChatGLM分词词典

用程序生成的ChatGLM分词词典,有助于帮助研发人员更直接的了解ChatGLM的分词原理

2024-01-29

person_pose_json.zip

内有 COCO_test-dev2017_detections_AP_H_609_person.json COCO_val2017_detections_AP_H_56_person.json两个文件

2019-12-26

bazel-0.80-dist

bazel是Google开源的一套编译构建工具,广泛应用于Google内部,包括TensorFlow项目。修改TensorFlow内部源码,需要使用bazel来编译,故有必要了解下bazel。

2019-02-01

机器学习:实用案例解析(中文版,带完整书签)

机器学习:实用案例解析/(美)康威(Conway, D.)等著;陈开江,刘逸哲, 孟晓楠译. —北京:机械工业出版社,2013.3 当今各行业,尤其是互联网,数据规模越来越大,要从中有效地发现模式来提高生产力,用传统的方式已经几乎不可能,只能借助计算机来完成诸多使命。因此,机器学习这一新兴的学科变得越来越重要,它已经在搜索、推荐、数据挖掘等多个领域闪耀光芒。

2019-01-07

机器学习实战:基于Scikit-Learn和TensorFlow

机器学习实战:基于Scikit-Learn和TensorFlow中文版;kindle格式,mobi,包括源码。自己留存。 本书主要分为两个部分。第一部分为第1章到第8章,涵盖机器学习的基础理论知识和基本算法——从线性回归到随机森林等,帮助读者掌握Scikit-Learn的常用方法;第二部分为第9章到第16章,探讨深度学习和常用框架TensorFlow,一步一个脚印地带领读者使用TensorFlow搭建和训练深度神经网络,以及卷积神经网络。

2018-11-21

程序员的数学 三册全

《程序员的数学》是2012年由人民邮电出版社出版的图书,作者是结城浩。本书面向程序员介绍了编程中常用的数学知识,借以培养初级程序员的数学思维。读者无需精通编程,也无需精通数学,只需具备四则运算和乘方等基础知识,就可以阅读本书。

2018-09-30

高等数学 下册

本教材是以国家教育部高等工科数学课程教学指导委员会制定的《高等数学课程教学基本要求》为标准,以培养学生的专业素质为目的,充分吸收编者们多年来教学实践与教学改革成果编写而成的。本书分为上、下册.上册含函数与极限、导数与微分、微分中值定理与导数应用、不定积分、定积分及其应用、微分方程等内容。下册含向量代数与空间解析几何、多元函数微分学、重积分、曲线积分与曲面积分、无穷级数等内容。每节均配有习题,每章配有综合练习题,书末附有习题参考答案,便于教与学。

2018-09-30

高等数学 上册

上册内容为函数与极限、导数与微分、中值定理与导数的应用、不定积分、定积分、定积分的应用、空间解析几何与向量代数等七章,书末附有二、三阶行列式简介、几种常用的曲线、积分表、习题答案与提示。

2018-09-30

Mina小Demo聊天工具

Mina小Demo 带swing界面的聊天工具 可脱离eclipse运行,可最小化至托盘

2013-11-13

How Tomcat Works中文版

How Tomcat Works中文版,一份pdf,一份word,很好很强大

2013-11-01

jar文件查看器

jar文件查看器 免安装 直接用 给自己留着

2013-08-12

jquery1.7.2.chm 中文API

jquery1.7.2.chm 中文API,好不容易找到的,给自己留着,也分享给大家。

2013-04-24

android摇一摇随机变图片

android一个摇晃手机变图片的小程序,并伴随震动,带源码。

2013-04-01

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除