![](https://img-blog.csdnimg.cn/20201014180756738.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
人工智能
文章平均质量分 88
绝不原创的飞龙
这个作者很懒,什么都没留下…
展开
-
Transformers 4.37 中文文档(一百)
原文:huggingface.co/docs/transformers。原创 2024-06-23 12:15:19 · 678 阅读 · 0 评论 -
Transformers 4.37 中文文档(一)
原文:huggingface.co/docs/transformers开始吧🤗 Transformers原文链接:huggingface.co/docs/transformers/v4.37.2/en/indexPyTorch、TensorFlow和JAX的最先进机器学习。🤗 Transformers 提供 API 和工具,可以轻松下载和训练最先进的预训练模型。使用预训练模型可以减少计算成本、碳足迹,并节省训练模型所需的时间和资源。这些模型支持不同模态中的常见任务,例如:📝 自然语言处理原创 2024-06-23 12:14:48 · 629 阅读 · 0 评论 -
Transformers 4.37 中文文档(五十一)
PEGASUS-X 模型由 Jason Phang、Yao Zhao 和 Peter J. Liu 在中提出。PEGASUS-X(PEGASUS eXtended)通过额外的长输入预训练和在编码器中使用交错的块局部注意力与全局标记,扩展了 PEGASUS 模型,用于长输入摘要。该论文的摘要如下:尽管大型预训练 Transformer 模型已被证明在处理自然语言任务方面非常有能力,但处理长序列输入仍然是一个重大挑战。其中一个任务是长输入摘要,其中输入长于大多数预训练模型的最大输入上下文。原创 2024-06-23 12:14:18 · 921 阅读 · 0 评论 -
Transformers 4.37 中文文档(五十五)
原文:huggingface.co/docs/transformersRetriBERT原文:huggingface.co/docs/transformers/v4.37.2/en/model_doc/retribert此模型仅处于维护模式,因此我们不会接受任何更改其代码的新 PR。如果您在运行此模型时遇到任何问题,请重新安装支持此模型的最后一个版本:v4.30.0。您可以通过运行以下命令来执行:pip install -U transformers==4.30.0。概述RetriBER原创 2024-06-23 12:13:48 · 692 阅读 · 0 评论 -
Transformers 4.37 中文文档(五十四)
原文:huggingface.co/docs/transformersREALM原始文本:huggingface.co/docs/transformers/v4.37.2/en/model_doc/realm概述REALM 模型是由 Kelvin Guu、Kenton Lee、Zora Tung、Panupong Pasupat 和 Ming-Wei Chang 在REALM: Retrieval-Augmented Language Model Pre-Training中提出的。这是一个检原创 2024-06-23 12:13:17 · 928 阅读 · 0 评论 -
Transformers 4.37 中文文档(五十三)
Qwen2 是 Qwen 团队推出的大型语言模型新系列。之前,我们发布了 Qwen 系列,包括 Qwen-72B、Qwen-1.8B、Qwen-VL、Qwen-Audio 等。检索增强生成(“RAG”)模型结合了预训练的密集检索(DPR)和序列到序列模型的能力。RAG 模型检索文档,将其传递给 seq2seq 模型,然后进行边缘化以生成输出。检索器和 seq2seq 模块是从预训练模型初始化的,并进行联合微调,使得检索和生成都能够适应下游任务。原创 2024-06-23 12:12:45 · 1028 阅读 · 0 评论 -
Transformers 4.37 中文文档(五十七)
原文:huggingface.co/docs/transformersRoCBert原始文本:huggingface.co/docs/transformers/v4.37.2/en/model_doc/roc_bert概述RoCBert 模型是由 HuiSu、WeiweiShi、XiaoyuShen、XiaoZhou、TuoJi、JiaruiFang、JieZhou 在 RoCBert: Robust Chinese Bert with Multimodal Contrastive Pret原创 2024-06-23 12:12:12 · 762 阅读 · 0 评论 -
Transformers 4.37 中文文档(五十六)
原文:huggingface.co/docs/transformersRoBERTa-PreLayerNorm原文链接: huggingface.co/docs/transformers/v4.37.2/en/model_doc/roberta-prelayernorm概述RoBERTa-PreLayerNorm 模型由 Myle Ott, Sergey Edunov, Alexei Baevski, Angela Fan, Sam Gross, Nathan Ng, David Grang原创 2024-06-23 12:11:41 · 892 阅读 · 0 评论 -
Transformers 4.37 中文文档(五十九)
原文:huggingface.co/docs/transformersSwitchTransformers原文链接: huggingface.co/docs/transformers/v4.37.2/en/model_doc/switch_transformers概述SwitchTransformers 模型是由 William Fedus、Barret Zoph 和 Noam Shazeer 在Switch Transformers: Scaling to Trillion Paramet原创 2024-06-23 12:11:10 · 1000 阅读 · 0 评论 -
Transformers 4.37 中文文档(五十二)
ProphetNet 模型是由 Yu Yan, Weizhen Qi, Yeyun Gong, Dayiheng Liu, Nan Duan, Jiusheng Chen, Ruofei Zhang, Ming Zhou 于 2020 年 1 月 13 日提出的。ProphetNet 是一个编码器-解码器模型,可以预测“ngram”语言建模的 n 个未来标记,而不仅仅是下一个标记。原创 2024-06-23 12:10:33 · 568 阅读 · 0 评论 -
Transformers 4.37 中文文档(五十八)
RWKV 模型是在此存储库中提出的。它建议对传统 Transformer 注意力进行微调,使其线性化。这样,模型可以用作循环网络:同时传递时间戳 0 和时间戳 1 的输入与在时间戳 0 传递输入,然后在时间戳 1 传递输入以及时间戳 0 的状态是相同的(见下面的示例)。这比常规 Transformer 更有效,并且可以处理任意长度的句子(即使模型在训练时使用固定的上下文长度)。这个模型是由sgugger贡献的。原始代码可以在这里找到。原创 2024-06-23 12:10:03 · 685 阅读 · 0 评论 -
Transformers 4.37 中文文档(五十)
原文:huggingface.co/docs/transformersOPT原文链接:huggingface.co/docs/transformers/v4.37.2/en/model_doc/opt概述OPT 模型是由 Meta AI 在Open Pre-trained Transformer Language Models中提出的。OPT 是一系列开源的大型因果语言模型,性能与 GPT3 相似。该论文的摘要如下:大型语言模型通常经过数十万计算天的训练,展现出了零次和少次学习的显著能力原创 2024-06-23 12:09:30 · 731 阅读 · 0 评论 -
Transformers 4.37 中文文档(五)
原文:huggingface.co/docs/transformers目标检测原始文本:huggingface.co/docs/transformers/v4.37.2/en/tasks/object_detection目标检测是计算机视觉任务,用于检测图像中的实例(如人类、建筑物或汽车)。目标检测模型接收图像作为输入,并输出检测到的对象的边界框的坐标和相关标签。一幅图像可以包含多个对象,每个对象都有自己的边界框和标签(例如,它可以有一辆汽车和一座建筑物),每个对象可以出现在图像的不同部分(例原创 2024-06-23 12:09:00 · 969 阅读 · 0 评论 -
Transformers 4.37 中文文档(四十一)
原文:huggingface.co/docs/transformersLongT5原始文本:huggingface.co/docs/transformers/v4.37.2/en/model_doc/longt5概述LongT5 模型是由 Mandy Guo、Joshua Ainslie、David Uthus、Santiago Ontanon、Jianmo Ni、Yun-Hsuan Sung 和 Yinfei Yang 在LongT5: Efficient Text-To-Text Tra原创 2024-06-23 12:08:24 · 898 阅读 · 0 评论 -
Transformers 4.37 中文文档(四十五)
原文:huggingface.co/docs/transformersMegatronGPT2原文链接:huggingface.co/docs/transformers/v4.37.2/en/model_doc/megatron_gpt2概述MegatronGPT2 模型是由 Mohammad Shoeybi、Mostofa Patwary、Raul Puri、Patrick LeGresley、Jared Casper 和 Bryan Catanzaro 在使用模型并行训练多十亿参数语言模原创 2024-06-23 12:07:24 · 822 阅读 · 0 评论 -
Transformers 4.37 中文文档(四十四)
MEGA 模型是由 Xuezhe Ma、Chunting Zhou、Xiang Kong、Junxian He、Liangke Gui、Graham Neubig、Jonathan May 和 Luke Zettlemoyer 在中提出的。MEGA 提出了一种新的自注意力方法,每个编码器层除了具有标准点积注意力的单头之外,还具有多头指数移动平均,使得注意机制具有更强的位置偏差。这使得 MEGA 在标准基准测试中表现出色,包括 LRA,同时参数数量明显较少。原创 2024-06-23 12:06:54 · 523 阅读 · 0 评论 -
Transformers 4.37 中文文档(四十三)
原文:huggingface.co/docs/transformersMBart 和 MBart-50原文链接:huggingface.co/docs/transformers/v4.37.2/en/model_doc/mbart MBart 概述MBart 模型是由 Yinhan Liu、Jiatao Gu、Naman Goyal、Xian Li、Sergey Edunov、Marjan Ghazvininejad、Mike Lewis、Luke Zettlemoyer 在多语言去噪预训原创 2024-06-23 12:06:23 · 705 阅读 · 0 评论 -
Transformers 4.37 中文文档(四十七)
原文:huggingface.co/docs/transformersMRA原始文本:huggingface.co/docs/transformers/v4.37.2/en/model_doc/mra概述MRA 模型由 Zhanpeng Zeng、Sourav Pal、Jeffery Kline、Glenn M Fung 和 Vikas Singh 在Multi Resolution Analysis (MRA) for Approximate Self-Attention中提出。论文摘要原创 2024-06-23 12:05:52 · 864 阅读 · 0 评论 -
Transformers 4.37 中文文档(四十六)
MPNet 模型由 Kaitao Song,Xu Tan,Tao Qin,Jianfeng Lu,Tie-Yan Liu 在中提出。MPNet 采用一种新颖的预训练方法,称为掩码和置换语言建模,以继承掩码语言建模和置换语言建模在自然语言理解方面的优势。该论文的摘要如下:BERT 采用了掩码语言建模(MLM)进行预训练,是最成功的预训练模型之一。由于 BERT 忽略了预测标记之间的依赖关系,XLNet 引入了置换语言建模(PLM)进行预训练以解决这个问题。原创 2024-06-23 12:05:22 · 716 阅读 · 0 评论 -
Transformers 4.37 中文文档(四十九)
免责声明: 分词器的默认行为已在 2023 年 4 月修复并更改。之前的版本在目标和源分词序列的末尾都添加了 。这是错误的,因为 NLLB 论文提到了 (第 48 页,6.1.1. 模型架构):请注意,我们将源序列前缀与源语言一起使用,而不是像以前的一些作品那样使用目标语言 (Arivazhagan 等人,2019;Johnson 等人,2017)。这主要是因为我们优先考虑在任何一对 200 种语言上优化我们模型的零翻译性能,对监督性能的损失很小。先前的行为:新行为可以通过以下方式启用旧行为:更多细节原创 2024-06-23 12:04:50 · 760 阅读 · 0 评论 -
Transformers 4.37 中文文档(四十二)
原文:huggingface.co/docs/transformersM2M100原始文本:huggingface.co/docs/transformers/v4.37.2/en/model_doc/m2m_100概述M2M100 模型是由 Angela Fan、Shruti Bhosale、Holger Schwenk、Zhiyi Ma、Ahmed El-Kishky、Siddharth Goyal、Mandeep Baines、Onur Celebi、Guillaume Wenzek、V原创 2024-06-23 12:04:20 · 956 阅读 · 0 评论 -
Transformers 4.37 中文文档(四十八)
原文:huggingface.co/docs/transformersMVP原文:huggingface.co/docs/transformers/v4.37.2/en/model_doc/mvp概述MVP 模型由唐天一、李俊毅、赵新文和文继荣在《MVP: 多任务监督预训练用于自然语言生成》中提出。根据摘要,MVP 遵循标准的 Transformer 编码器-解码器架构。MVP 是使用标记数据集进行监督预训练的。MVP 还具有任务特定的软提示,以激发模型在执行特定任务时的原创 2024-06-23 12:03:46 · 980 阅读 · 0 评论 -
Transformers 4.37 中文文档(四十)
原文:huggingface.co/docs/transformersLLaMA原始文本:huggingface.co/docs/transformers/v4.37.2/en/model_doc/llama概述Hugo Touvron、Thibaut Lavril、Gautier Izacard、Xavier Martinet、Marie-Anne Lachaux、Timothée Lacroix、Baptiste Rozière、Naman Goyal、Eric Hambro、Faisa原创 2024-06-23 12:03:16 · 1112 阅读 · 0 评论 -
Transformers 4.37 中文文档(四)
如果您更喜欢使用脚本而不是笔记本实例进行训练,您也可以创建并使用自己的数据集。该脚本需要:一个包含两个Image列“image”和“label”的。一个 id2label 字典,将类整数映射到它们的类名例如,查看这个示例数据集,该数据集是使用上述步骤创建的。原创 2024-06-23 12:02:45 · 734 阅读 · 0 评论 -
Transformers 4.37 中文文档(十一)
原始文本:huggingface.co/docs/transformers/v4.37.2/en/add_new_pipeline在本指南中,我们将看到如何创建自定义管道并在Hub上共享它或将其添加到🤗 Transformers 库中。首先,您需要决定管道将能够接受的原始条目。它可以是字符串、原始字节、字典或任何看起来最有可能的期望输入。尽量保持这些输入尽可能纯粹的 Python,因为这样可以使兼容性更容易(甚至通过 JSON 通过其他语言)。这些将是管道的inputspreprocess然后定义。原创 2024-06-23 12:02:01 · 697 阅读 · 0 评论 -
Transformers 4.37 中文文档(十五)
原文:huggingface.co/docs/transformers。原创 2024-06-23 12:01:22 · 985 阅读 · 0 评论 -
Transformers 4.37 中文文档(十四)
原文:huggingface.co/docs/transformers骨干原文链接:huggingface.co/docs/transformers/v4.37.2/en/main_classes/backbones骨干是用于计算机视觉任务的特征提取模型。可以通过两种方式之一将模型用作骨干:使用预训练模型初始化AutoBackbone类,初始化支持的骨干配置并将其传递给模型架构。使用 AutoBackbone您可以使用AutoBackbone类初始化一个模型作为骨干,并获取原创 2024-06-23 12:00:51 · 704 阅读 · 0 评论 -
Transformers 4.37 中文文档(十三)
原文:huggingface.co/docs/transformers应用程序接口主要类代理和工具原文:huggingface.co/docs/transformers/v4.37.2/en/main_classes/agentTransformers Agents 是一个实验性 API,随时可能发生变化。代理返回的结果可能会有所不同,因为 API 或底层模型可能会发生变化。要了解更多关于代理和工具的信息,请确保阅读入门指南。此页面包含底层类的 API 文档。代理我们提供三种类型的代原创 2024-06-23 12:00:20 · 1024 阅读 · 0 评论 -
Transformers 4.37 中文文档(十七)
原文:huggingface.co/docs/transformers管道原文链接: huggingface.co/docs/transformers/v4.37.2/en/main_classes/pipelines管道是使用模型进行推断的一种很好且简单的方式。这些管道是抽象出库中大部分复杂代码的对象,提供了专门用于多个任务的简单 API,包括命名实体识别、掩码语言建模、情感分析、特征提取和问答。查看任务摘要以获取使用示例。有两种要注意的管道抽象类别:pipeline() 是封装所有原创 2024-06-23 11:59:39 · 677 阅读 · 0 评论 -
Transformers 4.37 中文文档(十六)
原文:huggingface.co/docs/transformers。原创 2024-06-23 11:59:08 · 880 阅读 · 0 评论 -
Transformers 4.37 中文文档(十九)
原文:huggingface.co/docs/transformers训练器原始文本:huggingface.co/docs/transformers/v4.37.2/en/main_classes/trainerTrainer 类提供了一个用于在 PyTorch 中进行完整特征训练的 API,并支持在多个 GPU/TPU 上进行分布式训练,支持NVIDIA GPUs的混合精度,AMD GPUs,以及 PyTorch 的torch.amp。Trainer 与 TrainingArguments原创 2024-06-23 11:58:38 · 779 阅读 · 0 评论 -
Transformers 4.37 中文文档(十二)
原文:huggingface.co/docs/transformers🤗 Transformers 能做什么原文链接:huggingface.co/docs/transformers/v4.37.2/en/task_summary🤗 Transformers 是一个预训练的最先进模型库,用于自然语言处理(NLP)、计算机视觉以及音频和语音处理任务。这个库不仅包含了 Transformer 模型,还有像现代卷积网络这样的非 Transformer 模型,用于计算机视觉任务。如果你看一下今天最流行原创 2024-06-23 11:58:07 · 1051 阅读 · 0 评论 -
Transformers 4.37 中文文档(十八)
原文:huggingface.co/docs/transformers处理器原文:huggingface.co/docs/transformers/v4.37.2/en/main_classes/processors在 Transformers 库中,处理器可以有两种不同的含义:为多模态模型预处理输入的对象,如 Wav2Vec2(语音和文本)或 CLIP(文本和视觉)在库的旧版本中用于预处理 GLUE 或 SQUAD 数据的已弃用对象。多模态处理器任何多模态模型都需要一个对原创 2024-06-23 11:57:36 · 1003 阅读 · 0 评论 -
Transformers 4.37 中文文档(十)
首先,您应该对🤗 Transformers 有一个总体了解。🤗 Transformers 是一个非常主观的库,因此您可能不同意一些库的理念或设计选择。然而,根据我们的经验,我们发现库的基本设计选择和理念对于有效扩展🤗 Transformers 并保持维护成本在合理水平上至关重要。更好地了解库的一个很好的起点是阅读我们哲学的文档。由于我们的工作方式,有一些选择我们试图应用于所有模型:通常更喜欢组合而不是抽象复制代码并不总是坏事,如果它极大地提高了模型的可读性或可访问性。原创 2024-06-23 11:57:06 · 616 阅读 · 0 评论 -
Transformers 4.37 中文文档(三十一)
原文:huggingface.co/docs/transformers编码器解码器模型原文链接:huggingface.co/docs/transformers/v4.37.2/en/model_doc/encoder-decoder概述EncoderDecoderModel 可以用于初始化一个序列到序列模型,其中预训练的自编码模型作为编码器,预训练的自回归模型作为解码器。在 利用预训练检查点进行序列生成任务 中展示了使用预训练检查点初始化序列到序列模型以进行序列生成任务的有效性,作者是原创 2024-06-23 11:56:36 · 787 阅读 · 0 评论 -
Transformers 4.37 中文文档(三十五)
Fuyu 模型由ADEPT创建,作者是 Rohan Bavishi、Erich Elsen、Curtis Hawthorne、Maxwell Nye、Augustus Odena、Arushi Somani、Sağnak Taşırlar。作者介绍了 Fuyu-8B,这是一个仅解码器的基于经典 transformers 架构的多模态模型,具有查询和键规范化。线性编码器被添加以从图像输入创建多模态嵌入。通过将图像标记视为文本标记,并使用特殊的图像换行符,模型知道图像行何时结束。移除了图像位置嵌入。原创 2024-06-23 11:56:05 · 934 阅读 · 0 评论 -
Transformers 4.37 中文文档(三十四)
原文:huggingface.co/docs/transformersFNet原文链接: huggingface.co/docs/transformers/v4.37.2/en/model_doc/fnet概述FNet 模型由 James Lee-Thorp, Joshua Ainslie, Ilya Eckstein, Santiago Ontanon 在 FNet: Mixing Tokens with Fourier Transforms 中提出。该模型用傅立叶变换替换了 BERT 模原创 2024-06-23 11:55:35 · 674 阅读 · 0 评论 -
Transformers 4.37 中文文档(三十三)4-37-中文文档-三十三-
FLAN-T5 发布在论文扩展指令微调语言模型中 - 这是 T5 的增强版本,已在多种任务中进行微调。FLAN-T5 包含与 T5 版本 1.1 相同的改进(有关模型改进的完整详情,请参见此处。。原始检查点可以在此处找到。有关所有 API 参考、代码示例和笔记本,请参阅 T5 的文档页面。有关 FLAN-T5 的训练和评估的更多详细信息,请参考模型卡片。Flan-UL2 是基于 T5 架构的编码器解码器模型。它使用与去年早些时候发布的 UL2 模型相同的配置。原创 2024-06-23 11:55:00 · 862 阅读 · 0 评论 -
Transformers 4.37 中文文档(三十七)
OpenAI GPT-2 模型是由 Alec Radford、Jeffrey Wu、Rewon Child、David Luan、Dario Amodei 和 Ilya Sutskever 在OpenAI提出的,它是一个因果(单向)变压器,使用语言建模在一个大约 40GB 的文本数据语料库上进行预训练。论文的摘要如下:GPT-2 是一个基于大型变压器的语言模型,具有 15 亿个参数,在一个包含 800 万个网页的数据集[1]上进行训练。原创 2024-06-23 11:54:24 · 925 阅读 · 0 评论 -
Transformers 4.37 中文文档(三十六)
原文:huggingface.co/docs/transformersGPT-NeoX原文链接:huggingface.co/docs/transformers/v4.37.2/en/model_doc/gpt_neox概述我们介绍了 GPT-NeoX-20B,这是一个拥有 200 亿参数的自回归语言模型,经过 Pile 训练,其权重将通过宽松许可证免费向公众开放。据我们所知,这是在提交时具有公开可用权重的最大稠密自回归模型。在这项工作中,我们描述了 GPT-NeoX-20B 的架构和训练,原创 2024-06-23 11:53:54 · 564 阅读 · 0 评论