大模型面试题（三）

YummyJacky

已于 2025-02-11 16:15:27 修改

阅读量3.2k

点赞数 20

分类专栏：大模型文章标签：人工智能

于 2024-03-28 09:53:19 首次发布

本文链接：https://blog.csdn.net/weixin_53697800/article/details/137087107

版权

大模型专栏收录该内容

6 篇文章

订阅专栏

1. GAN和Diffusion的区别?

（1）原理:
●GAN: GAN是一种生成模型，由生成器和判别器组成。生成器试图生成逼真的样本，判别器试图区分生成的样本和真实样本。通过对抗训练的方式，生成器和判别器相互竞争，最终生成器可以生成更逼真的样本。
●Diffusion: Diffusion是一种基于物理扩散过程的生成模型。它们模拟了一个从有序状态到无序状态的扩散过程，然后再逆转这个过程来生成数据。在训练过程中，模型学习如何从噪声数据逐步恢复到真实数据分布。Diffusion通常涉及一个预定义的扩散过程，该过程在固定的时间步长内逐步添加噪声，然后模型学习如何逆转这个过程。

（2）数据生成方式

●GAN: GAN通过生成器网络从随机噪声中生成样本。生成器网络将随机噪声映射到数据空间，生
成逼真的样本。
●Diffusion: Diffusion通过迭代地将噪声样本与真实样本进行混合，逐步扩散噪声，从而生成逼真的样本。Diffusion模型的生成过程是通过逐步更新样本的概率分布来实现的。
（3）训练方式:
●GAN: 通过生成器和判别器的对抗训练来实现。
●Diffusion:通过最大似然估计来优化模型参数。在每个迭代步骤中,Diffusion模型通过最小化生成样本与真实样本之间的差异来更新模型参数。

2. Diffusion的优点和缺点?

优点:
1.模拟复杂分布:相比其他生成模型，Diffusion可以模拟更加复杂、非线性的分布。
2.训练稳定性: Diffusion 的训练过程相对稳定，不容易出现模式崩溃和训练振荡等问题。
3.数据泛化能力:Diffusion在多个领域中都有出色的表现，包括计算机视觉、NLP、多模态建模、分子图建模、时间序列建模等。
缺点:
1.推理速度较慢:相比其他生成模型，Diffusion的推理过程需要迭代更多次，因此推理速度较慢。
2.训练难度: Diffusion 的训练相对复杂，需要一定的技术和经验来调整模型的参数和超参数。
3.采样效率低:为了抽取一个样本，Diffusion通常需要进行数千个评估步骤

3. 如何提高prompt泛化性

提高prompt泛化性，即让预训练的语言模型在面对各种prompt时都能产生准确和有用的输出
策略:

（1）使用多样化数据集
训练数据尽量涵盖广泛的主题、风格和任务类型,这有助于模型学习到更通用的模式。

（2）优化prompt设计，设计更加通用的Prompt模板
尽量使用简洁明了、不含歧义的prompt,避免过于复杂或特定领域的术语。也要确保prompt涵盖了任务的关键要素。同时可以设计更加通用的Prompt模板，使其适用于多个任务和数据集。减少对特定任务的依赖，提高模型在新任务上的表现。

（3）使用prompt tuning
Prompt tuning是一种微调语言模型的技术,可以在保留大模型知识的同时,使模型针对特定任务进行优化。这种方法可以帮助模型更好地理解任务的语义。

（4）数据增强技术

数据增强是一种通过对原始数据进行变换和扩充来增加训练数据量和多样性的方法。可以通过对Prompt进行增强，如替换词语、改变句子结构等，来提高模型对不同输入的泛化能力。

（5）多任务学习
在同一模型中联合训练多个不同但相关的任务,可以促进模型学习到更通用的表示,从而提高在新任务上的泛化性。

4.预训练和微调哪个阶段注入知识

两个阶段都有知识注入，预训练阶段注入通用的知识，微调阶段注入特定领域的知识。
在预训练阶段，模型通过大量的无监督数据学习通用的语言知识和模式;在微调阶段，模型通过在特定任务相关的监督数据上学习特定领域的知识。

5.对COT (chain of thought)的理解

COT ( Chain-of-Thought Prompt)是一种提示学习的方法，用于引导大型语言模型进行逐步推理和
生成输出。
COT提示的特点:使用人工标注的指令数据集，其中包含了逐步推理的步骤。这种提示方法可以帮助模型更好地理解问题，并生成更准确和连贯的回答。
COT提示的一个著名例子: "Let's think step by step",这个提示被广泛应用于COT方法中。通过使用COT提示，模型可以按照逐步推理的方式生成输出,从而提高模型的性能和表现。
COT方法的研究背景: 可以追溯到2022年，当时提示学习成为研究的热点。在连续化提示学习的基础上,研究者开始探索离散式提示学习，并将研究重点放在大型语言模型的训练技术上。
COT方法的优势:它可以引导模型进行更深入的推理，从而生成更准确和连贯的输出。

COT方法的局限性：它可能不适用于所有类型的任务,特别是那些不需要复杂推理的任务。此外，设计有效的COT Prompt可能需要对特定任务有深入的理解

以下是学习课程时，课堂上的一段例子

思维链(CoT)&思维树(ToT)-CSDN博客

6.对模型量化的了解

在模型量化过程中，通常会对模型的权重参数、激活值和计算操作等进行优化和压缩，以减少模型的存储空间和计算复杂度，同时尽量保持模型的性能和准确度。

目的

减少模型大小:量化可以显著减少模型的存储需求，这对于部署到资源受限的设备( 如移动设备和嵌入式系统)尤其重要。
提高推理速度:低精度运算通常比高精度运算更快，因此量化可以加速模型的推理过程。
降低能耗:在低功耗设备上，使用低精度运算可以减少能耗，降低计算资源消耗，延长设备的电池寿命。

量化类型

Post-Training Quantization:在模型训练完成后进行量化。这种方法通常更容易实现,但可能需要微调模型以恢复量化前后的性能。
Quantization-Aware Training :在训练过程中考虑量化的影响，通过调整训练策略来最小化量化对模型性能的影响。

量化策略

对称量化:权重和激活的最小值和最大值被映射到量化范围的对称位置。
非对称量化:权重和激活的映射可以根据它们的分布进行调整，以更好地保留重要信息。
动态量化:在运行时根据输入数据的分布动态调整量化参数。

挑战

性能恢复:量化后需要额外的步骤来恢复模型的性能，如微调或使用校准数据集。
硬件支持:虽然现代硬件(如GPU和TPU)支持低精度运算，但并非所有硬件都具备这种能力。

应用场景:

移动和嵌入式设备:在这些设备上部署模型时，量化可以帮助节省空间和能源。
边缘计算:在边缘设备上进行实时推理时, 量化可以提高效率。
云计算:在云服务中，量化可以减少带宽需求和服务器负载。

需要区分于混合精度训练，量化主要用于模型部署时

目前有关于模型的实验都是在各种平台找的资源学习，这里是进行举例：

混合精度训练实操：Automatic Mixed Precision — PyTorch Tutorials 2.2.1+cu121 documentation

量化实操：LLM之RAG实战（一）：使用Mistral-7b, LangChain, ChromaDB搭建自己的WEB聊天界面

#使用LLM Mistral-7b建立了一个文本生成Pipeline，对其进行量化、分词和生成参数进行配置
MODEL_NAME = "mistralai/Mistral-7B-Instruct-v0.1" #size=9G
#定义量化配置。量化是一种用于降低深度学习模型的内存和计算需求的技术，通常通过使用更少的比特（在我们的情况下为4比特）来表示模型参数；
'''例如:假设我们有一个浮点数参数 weight = 0.75689，在32位浮点数的表示下，它需要占用32位的内存空间。但是如果我们将其量化为8位整数，
可以表示为 weight_quantized = 193，这样只需要占用8位的内存空间，大大减少了内存占用'''
#量化过程：
'''
1.确定量化范围： 假设将浮点数映射到范围 [0, 1]。
2.将范围等分： 将范围 [0, 1] 等分成256个间隔（8位整数0~255，一共256个数字），这样每个间隔的宽度为 1/256
3.映射浮点数到整数：将得到的浮点数四舍五入到最近的整数值，即 weight_quantized = 0.75689*256=194。
'''
quantization_config = BitsAndBytesConfig(
    load_in_4bit=True,#模型参数将以4位精度进行量化
    bnb_4bit_compute_dtype=torch.float16,#指定在计算时使用16位浮点数
    bnb_4bit_quant_type="nf4",#指定量化的类型。“nf4”表示使用“near float 4bit”（近似浮点4位）
    bnb_4bit_use_double_quant=True,#双重量化。在量化时会应用两个量化步骤，可能会提高量化的精度
)

tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME, use_fast=True)
tokenizer.pad_token = tokenizer.eos_token

#初始化用于因果语言建模的预训练Mistral-7b模型
model = AutoModelForCausalLM.from_pretrained(
    MODEL_NAME, 
    torch_dtype=torch.float16,
    trust_remote_code=True,
    device_map="auto",
    quantization_config=quantization_config
)