AIGC阅读学习
文章平均质量分 95
AIGC阅读学习
丁希希哇
这个作者很懒,什么都没留下…
展开
-
【论文精读】树环水印Tree-Ring Watermarks:隐形且稳健的扩散图像的指纹
傅里叶变换是一种数学变换,用于将时间或空间域的信号转换到频率域。其基本思想是将复杂的信号分解成一系列简单的正弦波(或余弦波)的叠加,每个正弦波具有特定的频率、振幅和相位。通过这种分解,可以更容易地分析和处理信号,尤其是在频率域内。我们不是将密钥直接印到高斯数组中,这可能会在结果图像中产生明显的图案,而是将密钥印到起始噪声向量的傅里叶变换中。然后使用标准扩散管道将该初始噪声矢量转换为图像,无需任何修改。树环水印通过在傅里叶变换的频域中精心选择秘钥k∗k^*k∗,结合二进制掩码MMM。原创 2024-06-19 10:23:37 · 809 阅读 · 0 评论 -
【论文精读】多模态系列:ALBEF、VLMo、BLIP、CoCa、BeiTv3
这个多路Transformer其实也是微软之前的工作VLMo,多路Transformer的核心是模型的MHSA模块是共享的,而设置不同的FFN来分别处理图像(V-FFN),文本(L-FFN)和多模态数据(VL-FFN)。给定任何一张图片,按照vision transformer的方法,打成patch,然后通过patch embedding layer,送进vision transformer,图像这边对应的编码器就是一个标准的12层的vision transformer的base模型。原创 2024-04-29 11:00:04 · 1062 阅读 · 0 评论 -
pix2pix:使用条件对抗网络进行图像到图像的转换
pix2pix模型本质上是cGAN的一种特殊实现。一种Image-to-Image的实现,是一种基于GAN的图像到图像翻译架构,生成部分G用U-Net代替Encoder-Decoder。文章的主要目的是开发一个通用框架来解决图像-图像转换(从像素预测像素)的所有问题:非结构化: 图像到图像的转换问题通常被表述为每像素分类或回归。这些公式将输出空间视为“非结构化”,因为每个输出像素被认为有条件地独立于给定输入图像的所有其他像素。结构化: 结构化损失考虑了输出的联合配置,而不仅仅是单个像素的值。这意味着损失函原创 2024-04-26 10:07:20 · 1476 阅读 · 0 评论 -
Textual Inversion:使用文本反转个性化文本到图像的生成
其中包含“S* 的照片”、“S* 的演绎”等形式的提示。我们可以从上图 中生成的图像看到,利用的pseudo word和新条件文本中的语义概念可以创建新的场景。由于SD中的UNet是使用预先训练好的大规模文本到图像模型建立的,因此一个通过学文本反演学习好的嵌入可以在不同扩散模型中重复使用。因此,文章通过在预训练的文本到图像模型的文本嵌入空间中查找新词来克服这些挑战:仅使用用户提供的概念(例如对象或风格)的 3-5 个图像,我们学习通过冻结文本到图像模型的嵌入空间中的新“单词”来表示它。原创 2024-04-23 18:41:33 · 949 阅读 · 0 评论 -
T2I-Adapter:学习适配器为文本到图像扩散模型挖掘更多可控能力
注意,Fc的维度与UNet降噪器的编码器中的中间特征Fenc = {Fe1nc, Fe2nc, Fe3nc, Fe4nc}相同。在第一阶段,SD 训练了一个自动编码器,它可以将图像 X0 转换为潜在空间,然后重建它们。扩散模型中的时间嵌入是采样的重要条件。T2I-Adapter 具有良好的泛化性,可以支持各种结构控制,包括草图、深度图、语义分割图和关键姿势。因此,为了加强adapter的训练,采用非均匀采样来增加采样早期t下降的概率。作为干净的潜在特征,被输入到自动编码器的解码器中以执行图像生成。原创 2024-04-23 10:13:12 · 1439 阅读 · 0 评论 -
【论文精读】ViLT:Vision-and-Language Transformer Without Convolution or Region Supervision
Vision-and-Language Transformer Without Convolution or Region Supervision:没有卷积或区域监督的视觉和语言转换器其实就是用transformer做多模态任务,但是没有用卷积特征和区域特征作为监督信号卷积特征指的是一个预训练好的分类模型(backbone)抽出来的特征图区域特征指的是用了一个图像的backbone之后做了一个目标检测出来的检测框代表的区域特征。原创 2024-04-21 19:34:57 · 740 阅读 · 0 评论 -
【论文精读】CLIP 改进工作(LSeg、GroupViT、VLiD、 GLIPv1、 GLIPv2、CLIPasso、CLIP4clip、ActionCLIP)
LSeg模型使用了CLIP模型的预训练参数,但是其目标函数不是对比学习,也不是无监督学习的框架,并没有将文本作为监督学习的信号使用。模型在 7 个分割数据集上进行训练,这些数据集都是由有标注的分割图组成,所以模型是以有监督的方式进行训练的(损失函数是交叉熵损失而非无监督的对比学习目标函数)。推理时,可以指定任意个数、任意内容的类别 prompt 来进行 zero-shot 的语义分割。原创 2024-04-08 10:06:06 · 1300 阅读 · 0 评论 -
【论文精读】 GPT,GPT-2,GPT-3:大力出奇迹
GPT的核心技术是把Transformer的解码器拿出来,在没有标号的大量的文本数据集上训练一个语言模型来获得一个预训练模型,然后在子任务上进行微调得到每一个任务所需要的分类器。BERT的思想是把Transformer的编码器拿出来,收集了一个更大的数据集用于做预训练。BERT提到了两个模型:BERT-Base和BERT-Large,BERT-Base的模型大小与GPT一致,结果显示Bert的性能要好于GPT。BERT-Large比BERT-Base更大,因此性能也更优。原创 2024-04-04 09:55:27 · 1703 阅读 · 0 评论 -
Classifier Guidance 与 Classifier-Free Guidance
X1X2XmX1X2...Xm,每个向量的元素个数都是ppp。如果XiX^{(i)}XiXi∼NpμΣXi∼NpμΣ对应的对数似然函数为:多元高斯分布协方差矩阵是对称矩阵,也是半正定矩阵,它的转置是它本身。原创 2024-04-01 08:40:15 · 1079 阅读 · 0 评论 -
【论文精读】Score-Based Generative Modeling Through Stochastic Differential Equations 通过随机微分方程进行基于分数的生成建模
生成模型的目标是希望训练一个神经网络来表征概率分布,从而能够通过其实现采样生成。主流的生成式模型主要可以归纳为两种不同的模式:隐式(implicit)生成模型:对数据的采样过程进行建模,不从数据分布的概率密度角度出发,而是通过其它方法达到表示概率分布的目的,例如GAN。显式(explicit)生成模型:通过(近似)最大似然对概率密度进行建模,也被称为基于似然的模型。典型的基于似然的模型包括自回归模型、归一化流动模型、基于能量的模型(EBM) 和变分自编码器(VAE)。原创 2024-03-30 13:59:44 · 1035 阅读 · 0 评论 -
【论文精读】DDIM:DENOISING DIFFUSION IMPLICIT MODELS 去噪扩散隐式模型
去噪扩散隐式模型(DDIM)是一类更有效的迭代隐式概率模型,具有与DDPM相同的训练程序,但是它不再限制扩散过程必须是一个马尔卡夫链,这使得DDIM可以采用更小的采样步数来加速生成过程,DDIM的另外是一个特点是从一个随机噪音生成样本的过程是一个确定的过程(中间没有加入随机噪音)。由于DDPM的加噪过程是以高斯分布的形式进行多步加噪,因此生成过程就是把每一步都看作高斯分布的形式,所以采样过程和前向加噪过程的链条长度是一致的。并且由于噪音项是来自。就决定了扩散模型的后验分布,同时也就决定了扩散逆过程的采样。原创 2024-03-28 13:15:43 · 1902 阅读 · 0 评论 -
【论文精读】CLIP:Learning Transferable Visual Models From Natural Language Supervision 从自然语言监督中学习可迁移的视觉模型
通过对 30 多个不同的现有计算机视觉数据集进行基准测试来研究这种方法的性能,涵盖 OCR、视频中的动作识别、地理定位和许多类型的细粒度对象分类等任务,最终发现该模型可以轻松地迁移到大多数任务,并且通常可以与完全监督的基线竞争,而无需任何数据集特定的训练。之前的自监督或者无监督方法主要研究的是特征学习的能力,目标是学习到泛化性较好的特征,但是在应用到下游任务时,还是需要有标签的数据去做微调。作者构建的数据集:包含 4 亿对(图像、文本)的新数据集,这些数据集是从互联网上的各种公开来源收集的。原创 2024-03-25 09:50:42 · 1349 阅读 · 0 评论 -
【论文精读】MAE:Masked Autoencoders Are Scalable Vision Learners 带掩码的自动编码器是可扩展的视觉学习器
使用纯注意力机制的编码器结构在机器翻译任务上比RNN架构更好Bert:基于transformer编码器的架构,将transformer拓展到更一般的NLP任务上面使用了完形填空的自监督训练机制,不需要使用标号,而是通过预测一个句子中看不见的masked的词,从而获取对文本特征的抽取的能力,所以Bert可以在大规模的,没有标号的数据上,训练出很好的模型(Bert预测的东西相对简单,所以其解码器就是最后那一个全连接输出层)Vit:可以理解成transformer在图像方面的应用。原创 2024-03-24 11:53:09 · 1825 阅读 · 0 评论 -
【论文精读】VIT:vision transformer论文
多头自注意力中的维度其实并不是768,假设现在使用的是VIsion Transformer的base版本,即多头使用了12个头,那么最后的维度就变成了768/12=64,也就是说这里的k、q、v变成了197×64,但是有12个头,有12个对应的k、q、v做自注意力操作,最后再将12个头的输出直接拼接起来,这样64拼接出来之后又变成了768,所以多头自注意力出来的结果经过拼接还是197×768。图像的位置编码信息是直接加到token上去的,不是拼接,因此不会改变序列的维度,序列还是197x768。原创 2024-03-23 23:26:12 · 1540 阅读 · 0 评论 -
【论文精读】DALLE3:Improving Image Generation with Better Captions 通过更好的文本标注改进图像生成
由于用户在实际应用过程中,可能不会发出长的、高度描述性的标注的分布,因此可以借助大型语言模型帮助用户直接扩写,具体来说,可以使用 LLM进行“上采样”,将短的prompt转换成长的prompt,这样不仅可以添加缺失的细节,还可以消除复杂关系的歧义。实验进行到一半时,评估显示 65% 的混合物在所有评估中都远远落后于其他混合物,因此作者放弃了它。作者使用95%的合成标注和5%的真实标注对DALLE3进行训练,并使用自动评估和人工评估两种方式对DALLE3与其他模型的效果进行了对比。描述图像的切向相关细节。原创 2024-03-21 17:17:58 · 1219 阅读 · 0 评论 -
【论文精读】BERT:Pre-training of Deep Bidirectional Transformers for Language Understanding
与GPT对比,BERT模型旨在通过联合调节所有层中的左右上下文来预训练未标记文本的深度双向表示与ELMo对比,ELMo使用的是基于RNN的架构,因此ELMo在用到一些下游任务时,需要对架构进行调整,而预训练的 BERT 模型只需一个额外的输出层即可进行微调。原创 2024-03-18 12:57:55 · 1348 阅读 · 0 评论 -
【论文精读】DDPM:Denoising Diffusion Probabilistic Models 去噪扩散概率模型
变分自动编码器(VAE) 结合了自动编码器和变分推断的思想。它主要包括编码器和解码器两个部分。VAE能够学习数据的潜在表示,并生成具有相似分布的新样本。在训练过程中,VAE的目标是最大化数据的边际似然,同时使潜在表示与先验分布(通常是高斯分布)的KL散度最小化。生成对抗网络(GAN): 由生成器和判别器组成。在训练过程中,生成器和判别器相互对抗、相互提升,最终使得生成器能够生成逼真的数据,判别器则很难区分真假数据。流模型(Flow-based Models) 是一类生成模型,旨在学习数据的概率分布以原创 2024-03-16 17:16:22 · 3447 阅读 · 3 评论 -
【论文阅读】Learning Transferable Adversarial Perturbations 学习可转移的对抗性扰动
由于不同架构、不同数据或不同任务的 DNN 提取的中层特征具有很强的相似性,因此可以通过最大化样本的正常特征与在预训练分类器的中间层中提取的对抗性特征之间的距离来训练扰动生成器。五种最先进防御:高级表示引导降噪器(HGD)、通过随机调整大小和填充的输入预处理防御(R&P) 、ResNeXt-101 上的特征去噪 (FD)、ResNet50 上的投影梯度下降 (PGD) 以及对抗性训练的 Inception 模型 的三个集合的平均值 (EnsembleAdv)。攻击前后的欺骗率和top-1错误的绝对差异。原创 2024-03-15 12:11:48 · 987 阅读 · 0 评论 -
【论文精读】GAN:Generative Adversarial Nets 生成对抗网络
生成模型 G 捕获数据分布,生成模型的任务是尽量使得判别模型犯错生成模型是要对整个数据的分布进行建模,从而能够生成各种分布。分布是一个一般化的词,在统计学的眼里,整个世界是通过采样不同的分布得到的,所以想要生成东西,目的就是要去抓住整个数据的分布。判别模型 D 估计样本来自训练数据而不是G的概率。原创 2024-03-14 11:29:27 · 1366 阅读 · 0 评论 -
【论文精读】Transformer:Attention Is All You Need
序列转录模型(sequence transduction models):序列转录也就是序列到序列的生成。input一个序列,output一个序列。e.g. 机器翻译:输入一句中文,输出一句英文。主流的序列转录模型一般是基于包括encoder 和decoder的 RNN 或者 CNN 架构。性能最好的模型还通过注意力机制连接编码器和解码器。提出了一种新的简单网络架构——TransformerTransformer完全基于注意力机制,完全不需要递归和卷积。原创 2024-03-12 16:46:22 · 1185 阅读 · 0 评论 -
【论文精读】ResNet: Deep Residual Learning for Image Recognition 用于图像识别的深度残差学习
更深层次的神经网络更难训练。提出了一个残差学习框架,以简化比以前使用的网络更深的网络训练。原创 2024-03-11 15:11:18 · 1302 阅读 · 0 评论 -
【论文精读】TextDiffuser-2:释放语言模型用于文本渲染的力量
实现准确的文本生成工作保证图片中文本布局的合理性在强大的语言模型能力的支持下展现出文本风格的多样性TextDiffuser-2继承并优化了其前身TextDiffuser的核心特性,主要创新在于其对语言模型的应用。灵活性和自动化程度有限:GlyphControl需要用户设计字形图像来提供布局指导;GlyphDraw和TextDiffuser依赖于手动指定关键字。布局预测能力有限:GlyphDraw只能渲染单行文本的图像,限制了其对多行文本场景的适用性;原创 2024-03-06 08:04:21 · 1671 阅读 · 0 评论 -
【论文精读】DALLE2: Hierarchical Text-Conditional Image Generation with CLIP Latents
DALLE2是可以根据文本描述去生成这种原创性的真实的图片,DALLE2学习了图片文本中的特征,可以任意的组合这些概念、属性、风格。DALLE2也可以根据文本对已有的图片进行编辑和修改,可以任意添加或者移除现在图片里的物品,甚至可以把阴影、光的反射、物体的纹理全部考虑在内。对比学习的方法比如CLIP模型已经可以学习到很稳健的图像特征,不仅能捕获到语义信息,还能捕获到图像的风格信息。(可以考虑用这些表示来生成图像)prior先验模型:根据给定的文本描述生成类似于CLIP的图像特征(图像嵌入)原创 2024-03-04 11:31:43 · 1542 阅读 · 0 评论 -
【论文精读】DALLE: Zero-Shot Text-to-Image Generation零样本文本到图像生成
DALL·E 是GPT-3的 120 亿参数版本, 经过训练,可以使用文本-图像对的数据集从文本描述生成图像。我们发现它具有多种功能,包括创建动物和物体的拟人化版本、以合理的方式组合不相关的概念、渲染文本以及对现有图像应用转换。DALL·E 2可以生成更逼真、更准确的图像,分辨率提高 4 倍。文本到图像生成传统上专注于寻找更好的建模假设以在固定数据集上进行训练,而这些假设会涉及到复杂的架构、辅助损失或辅助信息。基于transformer将文本和图像标记自回归建模为单个数据流。原创 2024-03-02 12:27:17 · 1892 阅读 · 0 评论 -
可变形注意力(Deformable Attention)及其拓展
右侧的可变形卷积因为感受野的每一个点都有偏移量,造成卷积核在图片上滑动时对应的感受野的点不会重复选择,这意味着会采样9 x 9=81个采样点,比传统卷积更多。对感受野上的每一个点加一个偏移量 ,偏移的大小是通过学习得到的 ,偏移后感受野不再是个正方形,而是和物体的实际形状相匹配。传统卷积核在卷积过程中由于会存在重叠,最终输出后的感受野范围小,而可变性卷积中因为有偏移,不会有重叠,从而感受野范围更大。可变形卷积将固定形状的卷积过程改造成了能适应物体形状的可变的卷积过程,从而使结构适应物体形变的能力更强。原创 2024-02-23 17:38:45 · 4290 阅读 · 1 评论 -
AutoEncoder自动编码器、VAE变分自编码器、VQVAE量子化(离散化)的自编码器
文章目录AutoEncoder自动编码器(一)AutoEncoder的基本架构(二)AutoEncoder的概率理解(三)AutoEncoder的局限VAE变分自编码器(Variational AutoEncoder)(一)VAE简介(二)VAE的概率理解(三)VAE与AE(三)VAE与GAN(四)VAE的损失函数VQVAE量子化(离散化)的自编码器(一)VQVAE简介(二)VQVAE与VAE(三)VQVAE的训练损失AutoEncoder自动编码器(一)AutoEncoder的基本架构最基础的Au原创 2024-02-03 20:20:00 · 1213 阅读 · 0 评论 -
AnyDoor任意门:零样本物体级图像定制化
任意门”算法:可以将任意目标传送到指定场景的指定位置,无需微调,便捷生成高质量、高保真的合成图像。被传送的目标会自动对新的场景进行姿态、角度、动作等方面的调整,确保生成图像的多样性以及和谐度。该算法可以完成多种图像生成或编辑任务如:图像定制化,多目标组合,虚拟试衣;同时,经过简单拓展,任意门算法可以完成更多神奇的应用比如物体移动、换位等。原创 2024-01-14 11:26:01 · 1308 阅读 · 1 评论 -
IP-Adapter:用于文本到图像扩散模型的文本兼容图像提示适配器
IP-Adapter是图像提示适配器,用于预训练的文本到图像扩散模型,以实现使用图像提示生成图像的能力;IP-Adapter的关键设计是解耦的交叉注意力机制,将交叉注意力层分离为文本特征和图像特征,实现了图像提示的能力。原创 2024-01-13 19:27:14 · 3029 阅读 · 2 评论 -
LAMA Inpaint:大型掩模修复
LaMa方法的提出背景:现代图像修复技术主要受阻于大缺失区域、复杂几何结构和高分辨率图像,主要受阻原因是修复网络和损失函数都缺乏有效的感受野。LaMa方法的核心思想:使用快速傅立叶卷积 fast Fourier convolutions (FFCs)来增大感受野,最终形成large mask inpainting (LaMa)。LaMa的主要组成部分:一种新的使用快速傅里叶卷积的修补网络,具有图像范围感受野,傅里叶卷积可以视为self-attention的轻量级替代;原创 2024-01-13 09:46:20 · 1815 阅读 · 1 评论 -
DreamBooth:个性化的文本到图像扩散模型
DreamBooth是一种微调文生图扩散模型的方法,最大的特点是Subject-Driven,针对某一个特定的主体,生成在不同的场景、姿势和视角中的该主体上下文图像;DreamBooth的两个主要贡献是:主题驱动生成。给定一些随意捕获的主题图像,目标是在不同的背景下合成主题的新颖再现,同时保持其关键视觉特征的高保真度。用于在少量镜头设置中微调文本到图像的扩散模型,同时保留模型在主题类上的语义知识。原创 2024-01-12 21:25:53 · 1340 阅读 · 1 评论 -
DeepFloyd IF:由文本生成图像的强大模型,能够绘制文字的 AI 图像工具
DeepFloyd IF:能够绘制文字的 AI 图像工具之前的 Stable Diffusion 和 Midjourney 都无法生成带有文字的图片,而文字都是乱码。DeepFloyd IF,这个文本到图像的级联像素扩散模型功能强大,能巧妙地将文本集成到图像中。DeepFloyd IF的优点是它能够生成高度真实的图像,并且具有很强的语言理解能力。它使用大规模数据集进行训练,这使得它能够生成高质量的图像。原创 2024-01-12 17:23:02 · 1262 阅读 · 1 评论 -
Stable Diffusion XL(SDXL)核心基础知识
如图所示,相比之前的SD,SDXL的第一个stage采用的是普通的DownBlock2D,而不是采用基于attention的CrossAttnDownBlock2D;SDXL的autoencoder依然采用KL-f8,但是并没有采用之前的autoencoder,而是基于同样的架构采用了更大的batch size(256 vs 9)重新训练,同时对模型的参数采用了EMA(指数移动平均),从而改善生成图片的局部和高频细节。SDXL的解决方案:图像裁剪参数条件化策略。SDXL的解决方案:多尺度训练策略。原创 2024-01-12 16:26:42 · 4676 阅读 · 1 评论 -
ControlNet核心基础知识
这种情况下对SD模型是没有任何影响的,就能确保SD模型原本的性能完整保存,之后ControlNet训练也只是在原SD模型基础上进行优化。ControlNet模型思想使得训练的模型鲁棒性好,能够避免模型过度拟合,并在针对特定问题时具有良好的泛化性,在小规模甚至个人设备上进行训练成为可能。这些卷积层的卷积核为4×4,步长为2,通道分别为16,32,64,128,初始化为高斯权重,并与整个ControlNet模型进行联合训练。,它们是1×1卷积,并且权重和偏置都初始化为零。中,然后将其克隆为可训练的副本。原创 2024-01-11 22:35:21 · 2068 阅读 · 0 评论 -
LoRA(Low-Rank Adaptation)模型核心基础知识
假设原来的是100x1024的参数矩阵,那么参数量为102400,LoRA模型将矩阵拆成了两个矩阵相乘,如果设置Rank=8,那么就是100x8的B矩阵与8x1024的A矩阵做矩阵乘法,参数量为800+8192=8992,整体参数量下降了约11.39倍。因此,在训练完成后,可以获得一个参数远小于SD模型的LoRA模型。与SD模型的参数有相同的维度,同时分解出来的两个较小矩阵可以确保参数更新是在低秩情况下的,这样就显著减少训练的参数数量了。,我们不再对其进行全参微调训练,而是对权重加入残差的形式,通过训练。原创 2024-01-11 21:11:12 · 1644 阅读 · 0 评论 -
Stable Diffusion原理解析-inpaint修复图片
图生图任务在输入本文的基础上,再输入一张图片,SD模型将根据文本的提示,将输入图片进行重绘以更加符合文本的描述。inpaint是Stable Diffusion仅重绘图像部分的技术,将画面中被手工遮罩的部分重新绘制;杂色将添加到要上色的图像部分。噪声量同样由降噪强度控制。原创 2024-01-11 20:08:34 · 2010 阅读 · 0 评论 -
Stable Diffusion(SD)核心基础知识——(文生图、图生图)
Stable Diffusion是计算机视觉领域的一个生成式大模型,可以用于文生图,图生图,图像inpainting,ControlNet控制生成,图像超分等丰富的任务。原创 2024-01-11 16:04:26 · 9114 阅读 · 0 评论 -
SAM:segment anything model——一个通用的图像分割基础模型
Segment Anything(SA)项目:一个用于图像分割的新任务、新模型和新数据集通过FM(基础模型)+prompt解决了CV中难度较大的分割任务,给计算机视觉实现基础模型+提示学习+指令学习提供了一种思路关键:加大模型容量(构造海量的训练数据,或者构造合适的自监督任务来预训练)原创 2024-01-10 14:29:14 · 1792 阅读 · 0 评论 -
Grounding DINO:开放集目标检测,将基于Transformer的检测器DINO与真值预训练相结合
在这里的反向传播是通过学生网络执行的,这时教师的权重尚未更新的原因。为了更新教师模型,DINO 对学生权重使用指数移动平均 (EMA),将学生网络的模型参数传输到教师网络。在自然语言处理(NLP)中,通常有不同层次的文本表示,从单词级别到句子级别,再到段落和文档级别。的方法,主要思想是通过让模型学会自行对数据进行插值,从而学习出对数据有意义的表示;它训练了一个学生网络来模仿一个更强大的教师网络的行为,所有这些都不需要在训练数据中有明确的标签。Q是词的查询向量,K是“被查”向量,V是内容向量。原创 2024-01-09 20:23:54 · 2786 阅读 · 4 评论