大模型面试题超全总结【第二节】-CSDN博客

本文链接：https://blog.csdn.net/xfxlylove/article/details/147164665

【第二节】包括5道试题的详细解读及说明如下：

PS小插图：技术方案标书工具介绍：【巧*书】是一款专为企业打造的高效AI智能写标书工具，通过AI大模型精准解析招标文件，智能生成投标内容，快速制作符合要求的高质量标书。
在这里插入图片描述

第一题.有哪几种SFT方法

SFT（Supervised Fine-Tuning，监督微调）是大模型微调的一种常见方法，以下是几种常见的SFT方法：

全微调（Full Fine-Tuning）：对整个预训练模型的所有参数进行微调。这种方法能够充分利用训练数据，使模型更好地适应特定任务，但计算成本较高，需要大量的计算资源和时间。
Adapter Tuning：在预训练模型的每一层或某些层中插入一个小型的适配器（Adapter）模块，只训练这些适配器模块的参数，而保持预训练模型的原始参数不变。适配器模块通常由两个全连接层和一个非线性激活函数组成，通过这种方式可以在不改变原始模型结构的情况下，使模型适应新的任务。
Prefix Tuning：在预训练模型的输入端添加一个可学习的前缀（Prefix），这个前缀与输入序列一起被送入模型进行处理。在训练过程中，只更新前缀的参数，而预训练模型的参数保持不变。这种方法通过引入额外的可学习参数来引导模型的输出，从而适应新的任务。
Prompt Tuning：通过设计特定的提示（Prompt）来引导预训练模型的输出。提示可以是自然语言的模板或指令，通过优化提示的内容，使模型能够更好地理解任务要求并生成符合预期的输出。在训练过程中，只更新提示的参数，而预训练模型的参数保持不变。
P-Tuning v1：一种改进的Prompt Tuning方法，通过引入连续的软提示（Soft Prompt）来替代传统的离散提示。软提示是通过可学习的嵌入向量表示的，可以更灵活地引导模型的输出。
LoRA（Low-Rank Adaptation）：在预训练模型的注意力层中引入低秩矩阵分解，将注意力权重矩阵分解为两个小矩阵的乘积。在训练过程中，只更新这两个小矩阵的参数，而预训练模型的原始参数保持不变。这种方法通过低秩近似来减少需要更新的参数数量，从而降低计算成本。
RLHF（Reinforcement Learning from Human Feedback）：利用人类反馈的强化学习方法来微调预训练模型。通过让人类对模型的输出进行评价，并根据评价结果调整模型的参数，使模型能够生成更符合人类期望的输出。

在SFT过程中，学习率的设置非常重要。通常将学习率设置为预训练阶段的10%，这样可以取得不错的效果。这是因为预训练模型已经学习到了丰富的语言知识，只需要较小的学习率来微调模型，使其适应新的任务，而不会破坏预训练模型已经学习到的知识。

第二题.什么是LoRA微调

LoRA（Low-Rank Adaptation）是一种高效的微调方法，其核心思想是在原始预训练语言模型（PLM）旁边增加一个旁路，通过降维和升维操作来模拟所谓的内在秩（intrinsic rank）。具体来说，LoRA在预训练模型的注意力层中引入两个小矩阵A和B，其中A是一个降维矩阵，B是一个升维矩阵。在训练过程中，固定预训练模型的参数，只训练矩阵A和B。

LoRA的实现步骤如下：

模型结构修改：在预训练模型的注意力权重矩阵W中，引入两个小矩阵A和B，使得W = W + BA，其中B是降维矩阵，A是升维矩阵。
参数初始化：用随机高斯分布初始化矩阵A，用0矩阵初始化矩阵B。这样在训练开始时，旁路矩阵BA为0矩阵，不会对原始模型的输出产生影响。
训练过程：在训练过程中，只更新矩阵A和B的参数，而预训练模型的参数保持不变。通过这种方式，LoRA能够在不改变预训练模型结构的情况下，有效地适应新的任务。
输出计算：在模型输出时，将旁路矩阵BA与预训练模型的参数叠加，得到最终的输出。

LoRA的优势在于：

参数高效：只需要训练两个小矩阵A和B，而不需要更新预训练模型的所有参数，大大减少了训练的计算成本和内存占用。
模型性能提升：通过低秩矩阵分解，LoRA能够在保持预训练模型性能的同时，有效地适应新的任务。
易于实现：LoRA的实现相对简单，只需要对预训练模型的注意力层进行少量的修改即可。

第三题. LangChain的常用模块有哪些

LangChain是一个用于构建语言模型应用的框架，提供了许多常用模块来简化开发过程。以下是LangChain的常用模块及其功能：

document_loaders（文档加载）：用于加载各种格式的文档，如PDF、Word、HTML等。LangChain提供了多种文档加载器，可以方便地将文档内容转换为文本格式，供后续处理使用。
text_splitter（文档分块）：将加载的文档文本分成合适大小的块。这一步骤对于后续的文本向量化和检索非常重要，可以确保每一块文本都能够被有效地处理和利用。
embedding.huggingface（向量化）：利用Hugging Face提供的嵌入模型，将文本转换为向量表示。向量化是将文本映射到高维空间中的关键步骤，使得计算机能够处理和比较文本。
vectorstores（向量存储）：用于存储和管理向量化的文本数据。LangChain支持多种向量存储方式，如FAISS、Pinecone等，可以高效地进行相似性搜索和检索。
chain.RetrievalQA（检索问答）：结合检索和问答功能，通过检索相关的文本块并利用问答模型生成最终的回答。RetrievalQA是构建智能问答系统的核心模块，能够提高回答的准确性和相关性。

这些模块相互配合，可以实现从文档加载、文本处理、向量化、检索到问答生成的完整流程，为构建高效的语言模型应用提供了强大的支持。

第四题. 大模型训练经常出现一些OOM问题，在现有硬件基础下，有什么性能提升trick

OOM（Out Of Memory，内存不足）是大模型训练中常见的问题，尤其是在硬件资源有限的情况下。以下是一些性能提升的技巧：

混合精度训练：使用混合精度训练（Mixed Precision Training）可以减少内存占用并加速计算。通过使用16位浮点数（FP16）代替32位浮点数（FP32），可以在保持模型精度的同时，减少内存使用量并提高计算效率。
减轻模型参数：通过模型剪枝、量化或知识蒸馏等方法，减少模型的参数量。这不仅可以降低内存占用，还可以提高模型的推理速度。
分布式训练：利用分布式训练技术，将模型和数据分布在多个GPU或机器上进行训练。通过数据并行或模型并行的方式，可以充分利用硬件资源，加速训练过程。
减少批量大小：适当减小批量大小（Batch Size）可以减少每次迭代所需的内存。虽然这可能会对模型的收敛速度产生一定影响，但在硬件资源有限的情况下，是一种有效的解决方案。
增加硬件资源：如果可能的话，增加GPU内存或使用更高性能的硬件设备。例如，使用具有更大显存的GPU或添加更多的GPU进行分布式训练。
数据处理与加载优化：使用数据流水线技术来并行加载和处理数据，减少内存中同时存在的数据量。例如，可以使用异步数据加载、预处理和缓存等技术，提高数据处理的效率。

通过这些技巧，可以在现有硬件基础上有效地缓解OOM问题，提高大模型训练的性能和效率。

第五题.如何让大模型处理更长的文本

大模型在处理长文本时，通常会受到内存和计算资源的限制。以下是一些方法来让大模型能够处理更长的文本：

分块处理：将长文本分成多个小块进行处理，每个块的大小可以根据模型的最大输入长度进行设置。在分块时，可以设置一定的重叠部分，以保证文本的连贯性和上下文信息的完整性。
增加模型参数量：通过增加模型的参数量和复杂化模型架构，提高模型对长文本的捕捉和表达能力。例如，使用更深的网络结构或更大的隐藏层维度，可以增强模型对长距离依赖关系的建模能力。
使用稀疏注意力机制：传统的注意力机制在处理长文本时，计算复杂度会随着序列长度的增加而急剧上升。使用稀疏注意力机制（如滑动窗口注意力、稀疏Transformer等），可以减少计算量并提高模型的效率。
优化内存使用：通过优化模型的内存使用，例如使用梯度检查点（Gradient Checkpointing）技术，可以在训练过程中减少内存占用，从而能够处理更长的文本。
这些方法可以帮助大模型更好地处理长文本，提高其在实际应用中的表现和效果。