小殊小殊-CSDN博客

原创速度、精度、轻量化——YOLO26震撼发布！

YOLO26：更好、更快、更小的 YOLO 型号！

2025-09-29 13:28:47 840 4

本文介绍了浮点数的存储原理，重点解释了指数位和尾数位的作用。浮点数采用类似科学计数法的表示方法，通过指数位确定数值范围（数量级），尾数位决定精度。FP32格式包含1位符号位、8位指数位（采用偏移码避免比较错误）和23位尾数位（隐含前导1）。文章以12.34为例详细演示了浮点数的二进制转换过程，说明浮点数通过动态精度实现相对误差恒定，适合科学计算需求。不同浮点格式（如FP16/FP64）原理相同，主要区别在于位数分配。

2025-09-26 09:57:35 693 4

原创绝对判断已过时？下一代GAN：鉴别器不再问“真不真”，而是问“谁更真”？

本文介绍了相对主义生成对抗网络(rGAN)的核心原理及其改进版本RaGAN。相比传统GAN的绝对判断方式，rGAN通过让鉴别器进行相对比较（真实样本与生成样本之间的对比），解决了训练中的梯度消失问题。RaGAN的损失函数设计使生成器和鉴别器始终获得明确的梯度信号，显著提升了训练稳定性和生成质量。文章详细解析了RaGAN的鉴别器和生成器损失函数计算逻辑，并通过对比表格展示了rGAN在模式崩溃、生成多样性等方面的优势。这种相对比较机制为GAN训练提供了更稳定、更有效的优化路径。

2025-09-22 10:16:35 991 3

原创震惊！GAN（生成对抗网络）爆出惊天缺陷！

GAN训练常见问题剖析：生成质量低、模式崩溃和超参数敏感等问题源于GAN原生缺陷——生成器无法影响判别器对真实样本的判断。普通GAN中，判别器对真样本的判别完全独立于生成器，而生成器仅优化假样本的生成质量，缺乏对判别器真样本判断逻辑的反馈。这种机制导致生成器训练易陷入局部最优，难以提升生成多样性和质量。改进方向需突破传统GAN的"绝对判断"局限，让生成器获得更全面的判别反馈。

2025-09-08 10:43:51 678 1

原创 GAN（生成对抗网络）的底层思维竟来自博弈论？

GAN（生成对抗网络）基于博弈论的纳什均衡概念，由生成器（G）和判别器（D）构成动态对抗系统。生成器通过噪声生成假数据以欺骗判别器，判别器则试图区分真假数据。其目标函数为极小极大博弈：G最小化V(D,G)，D最大化V(D,G)。当达到纳什均衡时，判别器无法区分真假数据（D(x)=0.5），生成数据分布与真实数据分布一致。GAN的对抗训练推动双方能力提升，最终实现生成高质量数据的目标。纳什均衡强调策略稳定性，而帕累托最优关注全局效率，两者在理想机制中可趋于一致。

2025-09-02 09:59:23 1113 4

原创【大模型】3D因果卷积动图怎么画

这篇文章主要记录这篇文章中画图用到的代码

2025-08-04 09:53:46 438 1

原创【大模型】一图看懂3D因果卷积！

本文将系统性地介绍从1D到3D的因果卷积原理，通过直观的动图演示帮助读者理解其工作机制，并重点探讨3D因果卷积在大规模视频生成中的独特价值和应用前景。

2025-08-04 09:53:26 1359 5

原创火遍全网的Qwen3-Coder测评！结果意想不到！

本文对阿里最新开源的Qwen3-Coder大模型进行了实际测评。测试内容包括贪吃蛇游戏实现、3D绘图能力及WebSocket对话系统开发。结果炸裂！

2025-07-25 09:17:08 1115 4

原创为什么即梦那么快？可灵那么慢！

本文分析了影响视频生成模型推理速度的关键因素：压缩比。通过对比LTXVideo（1.9B参数）和Wan2.1（1.3B参数）两个模型发现：1）压缩比差异（192:48）导致Transformer模块推理速度相差4-27倍，这是37秒与260秒耗时差距的主因；2）VAE的时空下采样程度（32x32 vs 8x8）决定压缩比；3）Classifier-Free Guidance参数设置会影响Transformer计算量（CFG≤1时耗时减半）。研究证明在模型规模相近时，提高VAE压缩比是加速视频生成最有效的方法

2025-06-09 10:06:48 1915 5

原创为什么可灵、即梦只能生成10秒视频？

玩过视频生成模型的朋友可能有过这样的疑问：“为什么可灵、即梦等视频生成模型只能生成大约10秒的视频？”要回答这个问题，我们首先需要了解当前主流的视频生成模型的结构。简而言之：无论多长的视频，都是“嗷”一下直接生成的；而不是一帧一帧逐步生成的。这样做的好处是可以保证内容的一致性，但也受到计算能力的限制，生成视频的长度也将受到限制。

2025-04-29 10:10:06 5646 5

原创突发！众多AI编程工具底裤被扒，核心提示词泄露！

GitHub上最近出现了一个堪称"核弹级"的开源项目——system-prompts-and-models-of-ai-tools。这个由开发者lucknitelol创建的项目，如同在AI开发者社区投下了一枚深水炸弹，短短时间内就斩获2.6万星标，热度持续攀升。项目内容直指当前最炙手可热的几款AI编程工具（包括Cursor、Devin、Manus等）的核心机密。

2025-04-25 10:00:00 6441 6

原创不会吧！不会吧！DeepSeek都火了，你还不理解注意力机制？

DeepSeek火了，同时带火的还有注意力机制。因为DeepSeek提出的多头潜在注意（MLA）机制通过低秩键值联合压缩，显著减少了显存消耗并提高了计算效率。本篇文章不讲MLA，先通俗讲解一下注意力机制的原理，回顾一下这个大模型（或者说Transformer）的核心思想，下一篇再来说MLA。

2025-02-25 08:24:41 827 5

原创 Ubuntu搭建ES8集群+加密通讯+https访问

这是一份详细的Ubuntu安装Elasticsearch 8.8.2部署教程，适合刚接触的小伙伴，也能帮上有经验的朋友。从环境准备开始，到安装配置，再到集群搭建，手把手教你怎么操作。包括创建用户、设置权限、优化系统参数、生成证书、配置文件调整等步骤，每一步都清清楚楚。按照这个流程走，相信你很快就能跑起一个稳定的ES集群了，祝你顺利！

2024-12-20 11:16:14 1526 8

原创【大模型】VAE中的“变分”是什么

VAE（Variational Autoencoder），中文译为变分自编码器。其中AE（Autoencoder）很好理解。那“变分”指的是什么呢?—其实是“变分推断”。变分推断主要用在VAE的损失函数中，那变分推断是什么，VAE的损失函数又是什么呢？往下看吧！

2024-10-28 09:34:42 3242 15

原创【大模型】通俗解读变分自编码器VAE

大模型已经有了突破性的进展，图文的生成质量都越来越高，可控性也越来越强。很多阅读大模型源码的小伙伴会发现，大部分大模型，尤其是CV模型都会用到一个子模型：变分自编码器（VAE），这篇文章就以图像生成为例介绍一下VAE，并且解释它问什么天生适用于图像生成。配合代码尽量做到通俗易懂。

2024-09-29 08:56:03 6273 22

原创【论文笔记】独属于CV的注意力机制CBAM-Convolutional Block Attention Module

CBAM（Convolutional Block Attention Module）是2018年被提出的，不同于ViT的Attention，CBAM是为CNN量身定做的Attention模块，实现简单、效果好，你值得拥有。

2024-08-28 09:31:35 8251 20

原创图解Pytorch学习率衰减策略（二）

上一篇文章介绍了一些常用的学习率衰减策略，下面我们再来看看稍微冷门一点的，包括：LambdaLR、PolynomialLR、CyclicLR、CosineAnnealingWarmRestarts、SequentialLR、ChainedScheduler

2024-08-20 09:19:46 878 11

原创图解Pytorch学习率衰减策略（一）

在深度学习中，学习率是一个非常重要的超参数，它控制了模型在每次权重更新时的步长。学习率衰减策略是指在训练过程中逐步减少学习率，从而使得模型更稳定地收敛到最优解。本文将介绍：LinearLR、StepLR、MultiStepLR、ExponentialLR、CosineAnnealingLR、ReduceLROnPlateau、OneCycleLR

2024-08-12 07:57:32 2330 8

原创视频生成大模型-可灵-全面测评

可灵是快手开发的对标SORA的视频生成大模型大模型，toC，主打文生视频和图生视频，已经内测了一段时间，但是审核进度很慢，基本排不上。审核通过后，再点击“生成视频”就可以体验了，功能分为文生视频和图生视频，视频分“高性能”和“高表现”，对应不用的“灵感值”，每天平台赠送66个“灵感值”。前景是两个水气球，一个装着红色液体，另一个装着绿色液体，分别从左右飞出，在镜头中部发生碰撞破裂，水花四溅，两种颜色也发生融合。从生成的5s视频来看，可灵的一致性是很好的，没有乱入、抖动，人物的动作也很丝滑。

2024-07-26 07:51:23 2894 6

原创最像人声的语音合成模型-ChatTTS

最像人声的AI来了！语音开源天花板ChatTTS火速出圈，3天就斩获9k个star。截至发稿前，已经25.9k个star了。这是专门为对话场景设计的语音生成模型，用于LLM助手对话任务、对话语音、视频介绍等，仅支持中英文。硬件要求低，甚至不需要GPU，一台普通PC就能运行。主模型使用了 100,000+ 小时的中文和英文音频数据进行训练。开源的版本是4 万小时基础模型。，这是原项目ChatTTS的地址，不用下，我们要使用的是ChatTTS-ui，是给ChatTTS增加了UI，并打好了包，开包即用。

2024-06-27 08:17:05 2066 6

原创 Transformer论文解读

Transformer有多牛逼不用多说，时隔7年我们再来看看论文原文，看看这篇深刻改变世界的文章都说了什么。当然逐字逐句解读已经意义不大，我们只列考点。

2024-06-11 09:30:20 3854 7

原创 Transformer：加性注意力还是点积注意力？这是个问题~

加性注意力（Additive Attention）和点积注意力（Multiplicative Attention，也称为缩放点积注意力，Scaled Dot-Product Attention）是两种常见的注意力机制，用于计算不同序列元素之间的相关性。加性注意力最初用在seq2seq；点积注意力最初用在Transformer。总的来说点积注意力更符合当下的NLP模型，使用的更广泛。

2024-06-04 10:00:05 2232 10

原创 ubuntu安装Stable Video Diffusion（SVD）让图片动起来

Stable Video Diffusion可以将图片变成几秒的视频，从名字就能看出来它使用了Stable Diffusion。现在这个项目还处在早期实验阶段，预训练模型也是效果感人，不过可以试着自己训练。这里先只介绍SVD的安装，目标是项目跑起来，能把一张图片变成3秒左右的视频，下面开始。

2024-05-27 09:04:04 2116 10

原创手把手教你用LoRA训练自己的Stable Diffusion模型

StableDiffusion大家已经很熟悉了，那么如何训练自己的sd模型呢，今天我就介绍一下用LoRA训练sd的方法。我们以Chilloutmix为例，Chilloutmix可以生成好看的小姐姐。为了实验LoRA的能力，我们用小哥哥的图片对它进行微调，看效果如何。

2024-05-20 09:23:10 10612 10

原创如何训练一个大模型：LoRA篇

现在有很多开源的大模型，他们一般都是通用的，这就意味着这些开源大模型在特定任务上可能力不从心。为了适应我们的下游任务，就需要对预训练模型进行微调。全参数微调有两个问题：在新的数据集上训练，会破坏大模型原来的能力，使其泛化能力急剧下降；而且现在的模型参数动辄几十亿上百亿，要执行全参数微调的话，他贵啊！！于是LoRA出现了，LoRA（Low-Rank Adaptation)是微软提出的一种参数有效的微调方法，可以降低微调占用的显存以及更轻量化的迁移。同时解决了上述两个问题，那它凭什么这么厉害？往下看吧。

2024-05-13 09:01:45 24016 17

原创一张图说清楚：大模型“大”在哪？ChatGLM模型结构详解

大型模型的神秘并不是不可透视的，今天我们以ChatGLM-6B为例，解析一下模型结构和代码。你会发现，大模型结构并没有那么神秘，相反还挺清晰的，就是Transformer的decoder改造而来的。我们还会看到模型中参数最密集的部分，这也是模型“大”的原因。

2024-05-06 08:29:08 7947 13

原创大模型都在用的：旋转位置编码

绝对位置编码和相对位置编码都有局限性，比如绝对位置编码不能直接表征token的相对位置关系；相对位置编码过于复杂，影响效率。于是诞生了一种用绝对位置编码的方式实现相对位置编码的编码方式——旋转位置编码（RotaryPositionEmbedding,RoPE），兼顾效率和相对位置关系。RoPE的核心思想是通过旋转的方式将位置信息编码到每个维度，从而使得模型能够捕捉到序列中元素的相对位置信息。现在已经在很多大模型证明了其有效性，比如ChatGLM、LLaMA等。

2024-04-26 08:55:27 9304 16

原创爱因斯坦求和约定含代码

爱因斯坦求和约定(Einstein summation convention)是一种标记的约定, 又称为爱因斯坦标记法(Einstein notation), 可以基于一些约定简写格式表示多维线性代数数组操作，让表达式更加简洁明了。

2024-04-10 08:29:16 2439 9

原创大模型必备向量数据库-Milvus的安装过程

Milvus是一个开源的向量相似度搜索引擎，专注于大规模向量数据的快速相似度搜索。本文将介绍Milvus的安装，跟着走，肯定能装上(#^.^#)

2024-02-24 08:36:07 5009 5

原创 Sora一出哪里又要裁员了？

上班前夕迎来大新闻，那就是Sora了，Sora是什么，有什么牛逼之处，怎么实现的，我们跟着官方文档透露出来的一点点信息捋一捋。

2024-02-20 09:00:35 3585 25

原创 Faiss为啥这么快？原来是量化器在做怪！

Faiss（Facebook AI Similarity Search）是一个面向相似性搜索和聚类的开源库，专注于高维向量的快速相似性搜索。该库提供了一系列高效的算法和数据结构，可用于处理大规模高维向量数据，广泛应用于信息检索、机器学习和深度学习等领域。本文主要介绍Faiss中包含的量化器，量化器可以将高维向量映射到低维码本（codebook）以便进行快速近似最近邻搜索。当然在介绍量化器之前还有说一些前置的概念。

2024-02-18 08:22:14 4028 6

原创【大模型】公主大人，别再用jieba做分词了！看看隔壁ChatGLM用了什么高科技！

ChatGLM是优秀的国产开源大模型，研究的人也比较多，要用它完成自己的任务，还是需要了解它的一些玩法，细节还是很多的。ChatGLM已经更新了几个版本，我就从第一版代码开始记录笔记，后面的版本都是在前一版本进行修改，不会有天翻地覆的变化，所以看到新版本的时候只需要关注变化就可以啦。大模型的内容肯定是很多的，就从比较前置的Tokenizer开始吧。

2024-01-29 08:53:22 2672 10

原创【OpenCV】仿射变换中cv2.estimateAffine2D 的原理

cv2.estimateAffine2D是 OpenCV 库中的一个函数，用于估计两个二维点集之间的仿射变换矩阵。即第一个点集经仿射变换转换到第二个点集需要的操作，包括缩放、旋转和平移。

2023-11-20 11:29:38 7773 5

原创【OpenCV】计算视频的光流并跟踪物体calcOpticalFlowPyrLK

计算光流可以使用OpenCV的calcOpticalFlowPyrLK方法，cv2.calcOpticalFlowPyrLK是OpenCV库中的一个函数，用于计算稀疏光流。它实现的是Lucas-Kanade方法，这是一种常用的光流计算方法。光流是图像中物体运动的近似表示，它描述了图像中每个像素点在连续两帧之间的移动。Lucas-Kanade方法假设图像中的一个小邻域内的所有像素在运动上是一致的（即具有相同的光流）。

2023-11-09 08:30:10 3904

原创一文搞懂Transformer的位置编码

本文介绍Transformer的位置编码，有图有表有推导，看不懂你打我！！！在Transformer出现以前，NLP任务大多是以RNN、LSTM为代表的循环处理方式，即一个token一个token的输入到模型当中。这种设计存在天生的缺陷。为了解决这些缺陷，Transformer把token的顺序信号加到词向量上帮助模型学习这些信息，这就位置编码（Positional Encoding）。接下来的内容不会涉及Self-Attention等牛逼的创新设计，只讨论位置编码，希望对大家有所帮助。

2023-10-08 09:19:52 26812 29

原创【Rust】文件系统

本文将介绍Rust的文件系统，涵盖文件读写、目录遍历，并给出代码示例。文件读写实践：读取文件的字符串行避免读取写入同一文件使用内存映射随机访问文件目录遍历实践：过去 24 小时内修改过的文件名查找给定路径的循环递归查找重名文件使用给定断言递归查找所有文件跳过隐藏文件遍历目录在给定深度的目录，递归计算文件大小递归查找所有 png 文件忽略文件名大小写，使用给定模式查找所有文件

2023-10-05 07:07:25 2771 5

原创【Rust】操作日期与时间

Rust的时间操作主要用到chrono库，接下来我将简单选一些常用的操作进行介绍，如果想了解更多细节，请查看官方文档。

2023-09-26 15:02:22 4158 5

原创 torch.Storage()是什么？和torch.Tensor()有什么区别？

torch.Tensor()大家都很熟悉，torch中操作的数据类型都是Tensor。Storage在实际使用中却很少接触，但它却非常重要，因为Tensor真正的数据存储在Storage中，接下来我将结合代码简单的介绍一下Storage。

2023-09-15 11:06:30 992 5

原创【论文笔记】图像修复MPRNet:Multi-Stage Progressive Image Restoration 含代码解析

恢复图像任务，需要在空间细节和高级上下文特征之间取得复杂的平衡。于是作者设计了一个多阶段的模型，模型首先使用编解码器架构来学习上下文的特征，然后将它们与保留局部信息的高分辨率分支结合起来。

2023-07-18 07:48:45 15403 29

原创万字长文解读图像超分辨率 Real-ESRGAN 论文笔记+代码阅读

深度学习超分模型有几个里程碑：SRCNN > SRGAN > ESRGAN > Real-ESRGAN，SRCNN 和SRGAN 有些古老了，现在基本用不上，Real-ESRGAN是在ESRGAN的基础上做的升级，于是我们主要介绍Real-ESRGAN，用ESRGAN作为补充。

2023-07-10 07:00:00 32187 14

ChatGLM分词词典

用程序生成的ChatGLM分词词典，有助于帮助研发人员更直接的了解ChatGLM的分词原理

2024-01-29

person_pose_json.zip

内有 COCO_test-dev2017_detections_AP_H_609_person.json COCO_val2017_detections_AP_H_56_person.json两个文件

2019-12-26

Mina小Demo聊天工具

Mina小Demo 带swing界面的聊天工具可脱离eclipse运行，可最小化至托盘

2013-11-13

android摇一摇随机变图片

android一个摇晃手机变图片的小程序，并伴随震动，带源码。

2013-04-01

高等数学下册

本教材是以国家教育部高等工科数学课程教学指导委员会制定的《高等数学课程教学基本要求》为标准，以培养学生的专业素质为目的，充分吸收编者们多年来教学实践与教学改革成果编写而成的。本书分为上、下册.上册含函数与极限、导数与微分、微分中值定理与导数应用、不定积分、定积分及其应用、微分方程等内容。下册含向量代数与空间解析几何、多元函数微分学、重积分、曲线积分与曲面积分、无穷级数等内容。每节均配有习题，每章配有综合练习题，书末附有习题参考答案，便于教与学。

2018-09-30

bazel-0.80-dist

bazel是Google开源的一套编译构建工具，广泛应用于Google内部，包括TensorFlow项目。修改TensorFlow内部源码，需要使用bazel来编译，故有必要了解下bazel。

2019-02-01

机器学习实战：基于Scikit-Learn和TensorFlow

机器学习实战：基于Scikit-Learn和TensorFlow中文版；kindle格式，mobi，包括源码。自己留存。本书主要分为两个部分。第一部分为第1章到第8章，涵盖机器学习的基础理论知识和基本算法——从线性回归到随机森林等，帮助读者掌握Scikit-Learn的常用方法；第二部分为第9章到第16章，探讨深度学习和常用框架TensorFlow，一步一个脚印地带领读者使用TensorFlow搭建和训练深度神经网络，以及卷积神经网络。

2018-11-21

程序员的数学三册全

《程序员的数学》是2012年由人民邮电出版社出版的图书，作者是结城浩。本书面向程序员介绍了编程中常用的数学知识，借以培养初级程序员的数学思维。读者无需精通编程，也无需精通数学，只需具备四则运算和乘方等基础知识，就可以阅读本书。

2018-09-30

机器学习：实用案例解析（中文版，带完整书签）

机器学习：实用案例解析/（美）康威（Conway, D.）等著；陈开江，刘逸哲，孟晓楠译. —北京：机械工业出版社，2013.3 当今各行业，尤其是互联网，数据规模越来越大，要从中有效地发现模式来提高生产力，用传统的方式已经几乎不可能，只能借助计算机来完成诸多使命。因此，机器学习这一新兴的学科变得越来越重要，它已经在搜索、推荐、数据挖掘等多个领域闪耀光芒。

2019-01-07

高等数学上册

上册内容为函数与极限、导数与微分、中值定理与导数的应用、不定积分、定积分、定积分的应用、空间解析几何与向量代数等七章，书末附有二、三阶行列式简介、几种常用的曲线、积分表、习题答案与提示。

2018-09-30

jquery1.7.2.chm 中文API

jquery1.7.2.chm 中文API,好不容易找到的，给自己留着，也分享给大家。

2013-04-24

jar文件查看器

jar文件查看器免安装直接用给自己留着

2013-08-12

How Tomcat Works中文版

How Tomcat Works中文版，一份pdf，一份word，很好很强大

2013-11-01

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

ChatGLM分词词典

person_pose_json.zip

Mina小Demo聊天工具

android摇一摇随机变图片

高等数学 下册

bazel-0.80-dist

机器学习实战：基于Scikit-Learn和TensorFlow

程序员的数学 三册全

机器学习：实用案例解析（中文版，带完整书签）

高等数学 上册

jquery1.7.2.chm 中文API

jar文件查看器

How Tomcat Works中文版

空空如也

高等数学下册

程序员的数学三册全

高等数学上册