PaddleNLP学习笔记

本文介绍了如何使用PaddleNLP和PaddleHub进行预训练模型的迁移学习,包括PaddleHub的安装、THUNEW新闻分类实战,以及ERNIE模型的Fine-tune过程,强调了开源软件在学习过程中的重要性。
摘要由CSDN通过智能技术生成

PaddleHub简介

PaddleHub是依托于PaddlePaddle框架的预训练模型应用工具,号称十行代码完成ERNIE工业级文本分类,如此可见其开发的简易程度。开发者可以便捷地使用高质量的预训练模型结合Fine-tune API快速完成模型迁移到部署的全流程工作。PaddleHub提供的预训练模型涵盖了图像分类、目标检测、词法分析、语义模型、情感分析、视频分类、图像生成、图像分割、文本审核、关键点检测等主流模型。其GitHub地址为https://github.com/PaddlePaddle/PaddleHub

PaddleHub的安装

PaddleHub目前支持CPU和GPU计算,所以如果只使用CPU,直接pip安装paddlepaddle,代码如下:

pip install paddlepaddle -i https://mirror.baidu.com/pypi/simple

使用GPU请按照以下操作。

CUDA安装

安装PaddleHub之前,需要我们先安装PaddlePaddle(推荐最新版本),需要注意的是,我们需要需要安装CUDA,安装包下载地址https://developer.nvidia.com/cuda-downloads
Linux平台
LInux平台安装方式
Windows平台
Windows平台安装方式

PaddlePaddle安装

然后再安装gpu版本的PaddlePaddle,安装脚本为:

python -m pip install paddlepaddle-gpu -i https://mirror.baidu.com/pypi/simple

PaddleHub安装

安装PaddleHub

pip install paddlehub

THUNEW分类实战

NLP预训练模型

模型名 PaddleHub Module
ERNIE, Chinese hub.Module(name='ernie')
ERNIE Tiny, Chinese hub.Module(name='ernie_tiny')
ERNIE 2.0 Base, English hub.Module(name='ernie_v2_eng_base')
ERNIE 2.0 Large, English hub.Module(name='ernie_v2_eng_large')
RoBERTa-Large, Chinese hub.Module(name='roberta_wwm_ext_chinese_L-24_H-1024_A-16')
RoBERTa-Base, Chinese hub.Module(name='roberta_wwm_ext_chinese_L-12_H-768_A-12')
BERT-Base, Uncased hub.Module(name='bert_uncased_L-12_H-768_A-12')
BERT-Large, Uncased hub.Module(name='bert_uncased_L-24_H-1024_A-16')
BERT-Base, Cased hub.Module(name='bert_cased_L-12_H-768_A-12')
BERT-Large, Cased hub.Module(name='bert_cased_L-24_H-1024_A-16')
BERT-Base, Multilingual Cased hub.Module(nane='bert_multi_cased_L-12_H-768_A-12')
BERT-Base, Chinese hub.Module(name='bert_chinese_L-12_H-768_A-12')

本次新闻标题分类为中文选用ERNIE
安装ERNIE预训练模型

hub install ernie

加载数据集

载入数据,这里使用里官方提供的数据模块。

import paddlehub as hub
dataset = hub.dataset.THUCNEWS()

如果是我们自己的数据则需要重新写dataset这块,官网说明自定义数据集方式具体方式为:

import io
import os

from paddlehub.dataset.base_nlp_dataset import BaseNLPDataset
from paddlehub.dataset import InputExample

class THUCNEWS(BaseNLPDataset):
    def __init__(self)
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值