Hugging face Transformers（1）—— 基础知识

最新推荐文章于 2025-04-13 16:03:20 发布

云端FFF

最新推荐文章于 2025-04-13 16:03:20 发布

阅读量1.1k

点赞数 11

分类专栏： # Transformers 文章标签： Transformers Hugging face

本文链接：https://blog.csdn.net/wxc971231/article/details/140231114

版权

4 篇文章

订阅专栏

Hugging Face 是一家在 NLP 和 AI 领域具有重要影响力的科技公司，他们的开源工具和社区建设为NLP研究和开发提供了强大的支持。它们拥有当前最活跃、最受关注、影响力最大的 NLP 社区，最新最强的 NLP 模型大多在这里发布和开源。该社区也提供了丰富的教程、文档和示例代码，帮助用户快速上手并深入理解各类 Transformer 模型和 NLP 技术
Transformers 库是 Hugging Face 最著名的贡献之一，它最初是 Transformer 模型的 pytorch 复现库，随着不断建设，至今已经成为 NLP 领域最重要，影响最大的基础设施之一。该库提供了大量预训练的模型，涵盖了多种语言和任务，成为当今大模型工程实现的主流标准，换句话说，如果你正在开发一个大模型，那么按 Transformer 库的代码格式进行工程实现、将 check point 打包成 hugging face 格式开源到社区，对于推广你的工作有很大的助力作用。本系列文章将介绍 Transformers 库的基本使用方法

1. 常见自然语言处理任务

目前常见的 NLP 任务主要可以归纳为

第一阶段（传统机器学习思路）：统计模型＋数据（特征工程)
- 特征提取：TF-IDF、BOW…
- 使用经典统计模型：决策树、SVM、HMM、CRF…
第二阶段（深度学习思路）：神经网络＋数据
- 特征提取：Word2vec、Glove…
- 使用深度学习模型：MLP、CNN、RNN/LSTM/GRU、Transformer…
第三阶段（预训练微调思路）：预训练＋(少量)数据微调思路
- 特征提取：BERT 类 Transformer Encoder 模型（同时有很多工作直接端到端）
- 使用 Transformer 类序列模型：GPT、BERT/RoBERTa/ALBERT、BART/T5
第四阶段（大模型思路）：神经网络＋更大的预训练模型＋Prompt
- 基本没有明确的特征提取阶段，或者说用 GPT 提取前驱序列特征
- 基于 GPT 的各种序列生成模型：ChatGPT、Bloom、LLaMA、Alpaca、Vicuna、MOSS…

Transformers 库包含以下核心组件

组件	描述
Transformers	核心库，模型加载、模型训练、流水线等
Tokenizer	分词器，对数据进行预处理，文本到 token 序列的互相转换
Datasets	数据集库，提供了数据集的加载、处理等方法
Evaluate	评估函数，提供各种评价指标的计算函数
PEFT	高效微调模型的库，提供了几种高效微调的方法，小参数量撬动大模型
Accelerate	分布式训练，提供了分布式训练解决方案，包括大模型的加载与推理解决方案
Optimum	优化加速库，支持多种后端，如Onnxruntime、OpenVino等
Gradio	可视化部署库，几行代码快速实现基于Web交互的算法演示系统

部分官方文档

章节	描述
文档	完整的 API 文档和教程
任务总结	🤗 Transformers 支持的任务
预处理教程	使用 `Tokenizer` 来为模型准备数据
训练和微调	在 PyTorch/TensorFlow 的训练循环或 `Trainer` API 中使用 🤗 Transformers 提供的模型
快速上手：微调和用例脚本	为各种任务提供的用例脚本
模型分享和上传	和社区上传和分享你微调的模型
迁移	从 `pytorch-transformers` 或 `pytorch-pretrained-bert` 迁移到 🤗 Transformers