fairseq入门:Getting Started


前言

Fairseq is a sequence modeling toolkit written in PyTorch that allows researchers and developers to train custom models for translation, summarization, language modeling and other text generation tasks.

Fairseq 是一个基于PyTorch编写的序列建模工具包 (由Facebook AI Research(FAIR)开发),它允许研究人员和开发人员训练用于翻译、摘要、语言建模和其他文本生成任务的自定义模型,以解决各种自然语言处理(NLP)任务。

安装:

  1. 通常情况下,Fairseq是一个较大的项目,因此它的安装可能会占用一些时间和磁盘空间,尤其是如果您的网络连接速度较慢时。
git clone https://github.com/pytorch/fairseq
cd fairseq
pip install --editable ./
  1. 如果只是想使用Fairseq而不需要进行开发或编辑Fairseq源代码,可以考虑直接安装Fairseq的发布版本
pip install fairseq

实际上本节内容知识主要目的是让使用者知道fairseq能干什么


一、Evaluating Pre-trained Models(评估预训练模型)

首先,需要下载示例的预训练模型(一个英语法语对的翻译任务)及它的词汇表(大概1.9g):

curl https://dl.fbaipublicfiles.com/fairseq/models/wmt14.v2.en-fr.fconv-py.tar.bz2 | tar xvjf -

但实际上我在使用过程中服务器下载速度极慢,改用了wget:

wget -c https://dl.fbaipublicfiles.com/fairseq/models/wmt14.v2.en-fr.fconv-py.tar.bz2
tar -xvjf wmt14.v2.en-fr.fconv-py.tar.bz2

会解压出下面五个文件:
在这里插入图片描述

此模型使用了字节对编码(Byte Pair Encoding,BPE)词汇表,因此在进行翻译之前,我们需要将源文本(source text)进行编码——使用 apply_bpe.py 脚本,并使用 wmt14.en-fr.fconv-cuda/bpecodes 文件进行编码。@@ (用来标记词汇切分的边界)被用作连续标记符,原始文本可以通过诸如
sed s/@@ //g

一个用于文本处理的命令。使用了 sed(流编辑器)工具,执行以下操作:其中 s 表示替换操作,@@ 是要查找的文本,// 之间是要用来替换的文本,g 表示全局替换(即一行中的所有匹配都将被替换)。即在文本中查找所有的 @@ 符号,并将其替换为空格)

或传递 --remove-bpe 标志给 fairseq-generate(命令行工具) 来还原。
在进行BPE之前,输入文本需要使用来自 mosesdecodertokenizer.perl 进行标记化。

使用 fairseq-interactive 以交互方式生成翻译。在这里,我们使用了 5束搜索(beam size)并使用了Moses标记器和给定的字节对编码词汇表对输入进行预处理。它将自动删除BPE连续标记符并对输出进行去标记化处理。

演示:
首先需要下载 subword-nmt 库:

pip install subword-nmt

使用清华源更快:

pip install subword-nmt -i https://pypi.tuna.tsinghua.edu.cn/simple

在命令行键入以下示例代码:

> MODEL_DIR=wmt14.en-fr.fconv-py
> fairseq-interactive \
    --path $MODEL_DIR/model.pt $MODEL_DIR \
    --beam 5 --source-lang en --target-lang fr \
    --tokenizer moses \
    
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值