Datawhale 夏令营第四期大模型应用技术开发笔记3

zhuyan108

已于 2024-08-21 23:00:45 修改

阅读量99

点赞数 3

文章标签：人工智能

于 2024-08-21 22:41:56 首次发布

本文链接：https://blog.csdn.net/zhuyan108/article/details/141404510

版权

Datawhale 夏令营第四期大模型应用技术开发笔记3
- 模型微调
  - 大模型微调技术简介
    - 也被称为指令微调（Instruction Tuning）或者有监督微调（Supervised Fine-tuning, SFT），该方法利用成对的任务输入与预期输出数据，训练模型学会以问答的形式解答问题，从而解锁其任务解决潜能。经过指令微调后，大语言模型能够展现出较强的指令遵循能力，可以通过零样本学习的方式解决多种下游任务
    - 指令微调所需数据量显著减少，从几十万到上百万条不等的数据，均可有效激发模型的通用任务解决能力，甚至有研究表明，少量高质量的指令数据（数千至数万条）亦能实现令人满意的微调效果。这不仅降低了对计算资源的依赖，也提升了微调的灵活性与效率
  - 轻量化微调技术简介
    - 参数高效微调（Parameter-efficient Fine-tuning），也称为轻量化微调（Lightweight Fine-tuning），这些方法通过训练极少的模型参数，同时保证微调后的模型表现可以与全量微调相媲美
    - 常用的轻量化微调技术有LoRA、Adapter 和 Prompt Tuning。
  - LoRA技术简介
    - LoRA 是通过低秩矩阵分解，在原始矩阵的基础上增加一个旁路矩阵，然后只更新旁路矩阵的参数
- 微调过程
  - 准备数据
    - 从小红书上爬取了780条国内旅游数据
    - 对数据进行规整，格式化输出结果
  - 模型微调
    - 按照代码示例上传数据进行微调
  - 微调结果