Transformers 4.37 中文文档（九十五）

最新推荐文章于 2024-08-20 09:39:35 发布

绝不原创的飞龙

最新推荐文章于 2024-08-20 09:39:35 发布

阅读量964

点赞数 11

License CC BY-NC-SA 4.0 / 自豪地采用谷歌翻译

本文链接：https://blog.csdn.net/wizardforcel/article/details/139897890

版权

人工智能专栏收录该内容

578 篇文章 46 订阅

订阅专栏

原文：huggingface.co/docs/transformers

TrOCR

原始文本：huggingface.co/docs/transformers/v4.37.2/en/model_doc/trocr

概述

TrOCR 模型是由 Minghao Li、Tengchao Lv、Lei Cui、Yijuan Lu、Dinei Florencio、Cha Zhang、Zhoujun Li、Furu Wei 在TrOCR: Transformer-based Optical Character Recognition with Pre-trained Models中提出的。TrOCR 包括一个图像 Transformer 编码器和一个自回归文本 Transformer 解码器，用于执行光学字符识别（OCR）。

论文的摘要如下：

文本识别是文档数字化的一个长期研究问题。现有的文本识别方法通常基于 CNN 进行图像理解和基于 RNN 进行字符级文本生成。此外，通常需要另一个语言模型作为后处理步骤来提高整体准确性。在本文中，我们提出了一种端到端的文本识别方法，使用预训练的图像 Transformer 和文本 Transformer 模型，即 TrOCR，它利用 Transformer 架构进行图像理解和词片级文本生成。TrOCR 模型简单而有效，可以使用大规模合成数据进行预训练，并使用人工标记的数据集进行微调。实验表明，TrOCR 模型在印刷和手写文本识别任务上优于当前最先进的模型。

drawing TrOCR 架构。摘自原始论文。

请参考VisionEncoderDecoder类如何使用这个模型。

这个模型是由nielsr贡献的。原始代码可以在这里找到。

使用提示

开始使用 TrOCR 的最快方法是查看教程笔记本，展示了如何在推理时使用模型以及在自定义数据上进行微调。
TrOCR 在被微调到下游数据集之前经过 2 个阶段的预训练。它在印刷（例如SROIE 数据集）和手写（例如IAM 手写数据集）文本识别任务上取得了最先进的结果。更多信息，请参阅官方模型。
TrOCR 始终在 VisionEncoderDecoder 框架内使用。

资源

一个官方的 Hugging Face 和社区资源列表（由🌎表示），帮助您开始使用 TrOCR。如果您有兴趣提交资源以包含在此处，请随时打开一个 Pull Request，我们将进行审核！资源应该展示一些新东西，而不是重复现有资源。

文本分类

一个关于加速文档 AI与 TrOCR 的博客文章。
一个关于如何使用 TrOCR 进行文档 AI的博客文章。
一个关于如何使用 Seq2SeqTrainer 在 IAM 手写数据库上微调 TrOCR的笔记本。
一个关于inference with TrOCR和 Gradio 演示的笔记本。
一个关于在 IAM 手写数据库上微调 TrOCR使用原生 PyTorch 的笔记本。
关于在 IAM 测试集上评估 TrOCR的笔记本。

文本生成

语言建模任务指南。

⚡️ 推理

关于TrOCR 手写字符识别的交互式演示。

推理

TrOCR 的VisionEncoderDecoder模型接受图像作为输入，并利用 generate()来自回归地生成给定输入图像的文本。

[ViTImageProcessor/DeiTImageProcessor]类负责预处理输入图像，[RobertaTokenizer/XLMRobertaTokenizer]解码生成的目标令牌为目标字符串。TrOCRProcessor 将[ViTImageProcessor/DeiTImageProcessor]和[RobertaTokenizer/XLMRobertaTokenizer]封装成单个实例，用于提取输入特征和解码预测的令牌 ID。

逐步光学字符识别（OCR）

>>> from transformers import TrOCRProcessor, VisionEncoderDecoderModel
>>> import requests
>>> from PIL import Image

>>> processor = TrOCRProcessor.from_pretrained("microsoft/trocr-base-handwritten")
>>> model = VisionEncoderDecoderModel.from_pretrained("microsoft/trocr-base-handwritten")

>>> # load image from the IAM dataset
>>> url = "https://fki.tic.heia-fr.ch/static/img/a01-122-02.jpg"
>>> image = Image.open(requests.get(url, stream=True).raw).convert("RGB")

>>> pixel_values = processor(image, return_tensors="pt").pixel_values
>>> generated_ids = model.generate(pixel_values)

>>> generated_text = processor.batch_decode(generated_ids, skip_special_tokens=True)[0]

查看模型中心以查找 TrOCR 检查点。

Transformers 4.37 中文文档（九十五）

TrOCR

概述

使用提示

资源

推理

TrOCRConfig

class transformers.TrOCRConfig

TrOCRProcessor

class transformers.TrOCRProcessor

__call__

from_pretrained

save_pretrained

batch_decode

decode

TrOCRForCausalLM

class transformers.TrOCRForCausalLM

forward

TVLT

概述

使用提示

TvltConfig

class transformers.TvltConfig

TvltProcessor

class transformers.TvltProcessor

__call__

TvltImageProcessor

class transformers.TvltImageProcessor

preprocess

TvltFeatureExtractor

class transformers.TvltFeatureExtractor

__call__

TvltModel

class transformers.TvltModel

forward

TvltForPreTraining

class transformers.TvltForPreTraining

forward

TvltForAudioVisualClassification

class transformers.TvltForAudioVisualClassification

forward

TVP

概述

使用提示和示例

TvpConfig

class transformers.TvpConfig

from_backbone_config

to_dict

TvpImageProcessor

class transformers.TvpImageProcessor

preprocess

TvpProcessor

class transformers.TvpProcessor

__call__

TvpModel

class transformers.TvpModel

forward

TvpForVideoGrounding

class transformers.TvpForVideoGrounding

forward

ViLT

概述

使用提示

ViltConfig

class transformers.ViltConfig

ViltFeatureExtractor

class transformers.ViltFeatureExtractor

__call__

ViltImageProcessor

class transformers.ViltImageProcessor

preprocess

ViltProcessor

class transformers.ViltProcessor

__call__

ViltModel

class transformers.ViltModel

forward

ViltForMaskedLM

class transformers.ViltForMaskedLM

forward

`class transformers.TrOCRConfig`

`class transformers.TrOCRProcessor`

`call`

`from_pretrained`

`save_pretrained`

`batch_decode`

`decode`

`class transformers.TrOCRForCausalLM`

`forward`

`class transformers.TvltConfig`

`class transformers.TvltProcessor`

`call`

`class transformers.TvltImageProcessor`

`preprocess`

`class transformers.TvltFeatureExtractor`

`call`

`class transformers.TvltModel`

`forward`

`class transformers.TvltForPreTraining`

`forward`

`class transformers.TvltForAudioVisualClassification`

`forward`

`class transformers.TvpConfig`

`from_backbone_config`

`to_dict`

`class transformers.TvpImageProcessor`

`preprocess`

`class transformers.TvpProcessor`

`call`

`class transformers.TvpModel`

`forward`

`class transformers.TvpForVideoGrounding`

`forward`

`class transformers.ViltConfig`

`class transformers.ViltFeatureExtractor`

`call`

`class transformers.ViltImageProcessor`

`preprocess`

`class transformers.ViltProcessor`

`call`

`class transformers.ViltModel`

`forward`

`class transformers.ViltForMaskedLM`

`forward`

`class transformers.ViltForQuestionAnswering`

`forward`

`forward`

`class transformers.ViltForImageAndTextRetrieval`

`forward`

`class transformers.ViltForTokenClassification`

`forward`