生成式AI学习笔记

最新推荐文章于 2024-10-16 23:49:24 发布

不回头的岁月长

最新推荐文章于 2024-10-16 23:49:24 发布

阅读量42

点赞数

文章标签：人工智能学习笔记

本文链接：https://blog.csdn.net/weixin_51868653/article/details/134061878

版权

AI-gc概述

文本生成方面

AIGC技术通常使用基于神经网络的**自然语言处理**技术。这种技术可以通过输入大量的语料库来训练模型，模型可以学习语言的规则和模式，然后生成与训练数据相似的新文本。此外，还有一些新兴技术，如**变换器网络**（Transformer）的文本生成技术，可以生成更加复杂和逼真的文本内容。ChatGPT就是在Transformer模型上衍生出来的自然语言处理技术。它采用预训练的方式进行模型训练。预训练的目标是根据输入的一段文本，训练模型预测下一个单词或字符，这样模型就可以理解文本的语法和语义结构，从而生成合理的文本输出。

图像生成方面

AIGC技术通常使用基于深度学习的**生成对抗网络**（GAN）。GAN模型包括一个生成器和一个判别器，生成器通过学习真实图像，生成伪造的图像，判别器则负责判断生成器生成的图像是否真实。通过不断训练生成器和判别器，生成器可以生成逼真的图像。例如，谷歌公司的DeepDream算法可以将一张图片转换成一幅具有艺术感的画作。

AI-gc基础技术

AIGC技术涉及多个领域，包括自然语言处理、计算机视觉、机器学习等，其中GAN（生成对抗网络）、CLIP（对比语言和图像预训练）、Transformer、Diffusion、预训练模型、多模态技术、生成算法等技术是AIGC的重要基础。

自然语言处理 NLP

神经网络，尤其是**循环神经网络**(RNN)是当前 NLP 的主要方法的核心。其中，2017 年由Google 开发的 Transformer 模型现已逐步取代长短期记忆（LSTM）等 RNN 模型成为了NLP 问题的首选模型。Transformer 的并行化优势允许其在更大的数据集上进行.

**Transformer** 模型是一种采用自注意力机制的深度学习模型，这一机制可以按输入数据各部分重要性的不同而分配不同的权重。除了 NLP 以外，也被用于计算机视觉领域。

与循环神经网络（RNN）一样，Transformer 模型旨在处理自然语言等顺序输入数据，可应用于翻译、文本摘要等任务。而与 RNN 不同的是，Transformer 模型能够一次性处理所有输入数据。注意力机制可以为输入序列中的任意位置提供上下文。如果输入数据是自然语言，则 Transformer 不必像 RNN 一样一次只处理一个单词，这种架构允许更多的并行计算，并以此减少训练时间。

生成对抗网络 GAN

2014 年，Ian J.Goodfellow 提出了 GAN，是一种深度神经网络架构，由一个生成网络和一个判别网络组成。生成网络产生“假”数据，并试图欺骗判别网络；判别网络对生成数据进行真伪鉴别，试图正确识别所有“假”数据。在训练迭代的过程中，两个网络持续地进化和对抗，直到达到平衡状态，判别网络无法再识别“假”数据，训练结束。

生成对抗网络(GANs)是一种神经网络，它以随机噪声为输入并生成输出(例如一张人脸的图片)，输出似乎是来自训练集分布的样本(例如其他人脸的集合)。

GAN通过同时训练两个模型来实现这一壮举：

* 捕捉训练集分布的生成式模型。生成器试图学习数据分布，通过随机噪声作为输入，并产生逼真的图像。
* 判别模型估计样本来自训练数据而非生成模型的概率。判别器试图分类样本是来自真实的数据集，还是假的(由生成器生成)。

> GAN原理以及简单GAN的构造方法：
> https://blog.csdn.net/weixin_38346042/article/details/121633697

扩散模型 Diffusion Model

扩散模型是一种新型的生成模型，可生成各种高分辨率图像。在 OpenAI，Nvidia和 Google 设法训练大模型之后，它们已经引起了很多关注。基于扩散模型的示例架构包括 GLIDE，DALLE-2，Imagen 和完全开源的稳定扩散。扩散模型已经拥有了成为下一代图像生成模型的代表的潜力。以 DALL-E 为例，能够直接通过文本描述生成图像，让计算机也拥有了人的创造力。