llama模型集成-week6

breeze281

已于 2024-06-24 11:20:24 修改

阅读量378

点赞数 4

分类专栏：裁判文书合规性审查项目文章标签： python 人工智能

于 2024-06-24 09:37:18 首次发布

本文链接：https://blog.csdn.net/weixin_62069329/article/details/139913760

版权

裁判文书合规性审查项目专栏收录该内容

13 篇文章 0 订阅

订阅专栏

NLP模型集成与自定义后端逻辑

具体功能和流程

输入预处理与查询生成
- 在发送查询到模型之前，通过preprocess_inputs方法对输入数据进行格式化和预处理。这包括构建适合模型理解的查询提示格式。
- 使用历史记录（如果有）来构建上下文，这对于保持对话连贯性至关重要。
模型响应生成
- 通过chat方法，系统处理用户查询，构建输入，并调用模型生成方法来获取预测输出。
- 使用特定参数（如采样温度和最大令牌数）来影响模型的响应方式和内容的详细程度。
输出的后处理
- 一旦模型生成了响应，post_process方法会解析并清洗模型的原始输出，提取有用信息并以可读格式返回。

技术细节与优化

模型调用优化：在后端实施高效的API调用管理，包括错误处理和响应时间优化，确保即使在高负载情况下也能保持性能。

自定义逻辑与可扩展性：代码示例展示了如何根据具体需求定制模型交互逻辑，包括输入预处理和输出解析。这种灵活性是构建高效NLP应用的关键。

历史上下文管理：通过维护对话历史来增强模型的响应相关性和准确性，尤其是在连续对话场景中。

关键代码块分析与解释

输入预处理

代码中的preprocess_inputs方法负责将用户的查询和对话历史转换成模型能够理解的格式。这一步骤是交互式模型的基础，它确保了所有传入的信息都被适当地编码，以供模型处理。

def preprocess_inputs(self, query: str, history=None):
    if history is None:
        history = []
    prompt = ""
    for record in history:
        prompt += f"""<s>:{record[0]}<eoh>\n:{record[1]}<eoa>\n"""
    if len(prompt) == 0:
        prompt += "<s>"
    prompt += f""":{query}<eoh>\n:"""
    return prompt,history

在这段代码中，对于每个历史记录项，都使用特定的标记<s>, <eoh>（end of history），和<eoa>（end of action）来格式化对话。这种格式化是为了帮助模型理解对话的流程和各部分之间的界限。

生成响应

在chat方法中，将处理后的输入文本送入模型生成响应。这里的流程包括构建输入、调用模型、以及获取和处理模型的输出。

torch.no_grad()
def chat(self, query: str, history: List[Tuple[str, str]] = None, eos_token_id = (2, 103028), **kwargs):
    prompt, history = self.preprocess_inputs(query, history)
    inputs = self.build_tokens(prompt)
    output_scores = kwargs.get('output_scores', False)
    if output_scores:
        kwargs['return_dict_in_generate'] = True
    outputs = self.model.generate(**inputs, eos_token_id=eos_token_id, **kwargs)
    prompt_length = len(inputs["input_ids"][0]) if isinstance(inputs, (dict, BatchEncoding)) else len(inputs[0])
    response = self.post_process(outputs, prompt_length, output_scores)
    return response, history

使用@torch.no_grad()装饰器以优化性能并减少内存使用，这是因为在推理时不需要计算梯度。此外，代码中考虑了是否返回生成过程的分数（output_scores），这对于某些应用可能是必需的，如在生成的每个步骤中评估和选择最优解。

输出后处理

最后，post_process方法从模型的原始输出中提取实际的文本响应。这涉及解码输出令牌，并从中清洗出不需要的特殊令牌。

def post_process(self, outputs, prompt_length, output_scores=False):
    if output_scores:
        score = outputs.scores[0]
        return score
    outputs = outputs.tolist()[0][prompt_length:]
    response = self.tokenizer.decode(outputs, skip_special_tokens=True)
    response = response.split("<eoa>")[0]
    return response