NLP学习
文章平均质量分 76
wumo_rfr
这个作者很懒,什么都没留下…
展开
-
Datawhale-NLP-序列标注
1. 什么是序列标注在上面这个例子中有两个 saw ,其中第一个 saw 是动词,而第二个 saw 是名次,所以需要理解整个句子的含义才能做出正确的词性标注。序列标注(Sequence Tagging)是一个比较简单的NLP任务,但也可以称作是最基础的任务。序列标注的涵盖范围是非常广泛的,可用于解决一系列对字符进行分类的问题,如分词、词性标注、命名实体识别、关系抽取等等。 {\ \ \ \ \ \ } &nbs原创 2021-08-28 17:34:00 · 245 阅读 · 0 评论 -
Datawhale-NLP-文本分类
1. 数据集1.1 下载方式1.科学上网,下载相关数据集2.下载资源,后(1)将下载好的数据集存放到{user_dir}.cache\huggingface\datasets目录注:Windows用户目录:C:\Users{用户名}.cache\huggingface\datasets(2) 重新执行加载数据集的代码1.2 数据集说明我们将展示如何使用 Transformers代码库中的模型来解决文本分类任务,任务来源于GLUE Benchmark.GLUE榜单包含了9个句子级别的分类原创 2021-08-26 17:10:15 · 286 阅读 · 0 评论 -
Datawhale-NLP-BERT
1-Tokenization分词-BertTokenizer使用库函数import collectionsimport osimport unicodedatafrom typing import List, Optional, Tuplefrom transformers.tokenization_utils import PreTrainedTokenizer, _is_control, _is_punctuation, _is_whitespacefrom transformers.u原创 2021-08-24 10:17:45 · 63 阅读 · 0 评论 -
Datawhale八月学习-NLP专题-BERT代码
1.BERT Tokenization 分词模型(BertTokenizer)1.1 tokenizer基本含义tokenizer就是分词器; 只不过在bert里和我们理解的中文分词不太一样,主要不是分词方法的问题,bert里基本都是最大匹配方法。最大的不同在于“词”的理解和定义。 比如:中文基本是字为单位。英文则是subword的概念,例如将"unwanted"分解成[“un”, “##want”, “##ed”] 请仔细理解这个做法的优点。1.2 bert里涉及的tokenizer1)Bas原创 2021-08-22 16:26:48 · 559 阅读 · 0 评论 -
Datawhale八月学习-NLP专题-BERT和GPT
一、 BERT1. 什么是BERT1)BERT简介: 本文主要介绍一个名为BERT的模型。BERT与现有语言模型不同的是,BERT旨在通过调节所有层中的上下文来进行深度双向的预训练。因此,预训练的BERT表示可以通过另外的输出层进行调整,以创建用于广泛任务的状态模型,例如问题转换和语言参考,而无需实质的任务特定体系结构修改。 BERT全称是“Bidirectional Encoder Representation from Transformers“,即双向Transformer解码原创 2021-08-20 17:06:50 · 262 阅读 · 0 评论 -
Datawhale八月学习-NLP专题-注意力机制与transformer
1.数据转换(将单词转换为向量)1.One hot编码:本质是创建一个足够长的数组使其包含所有单词,且每一个单词都有他自己的位置,当出现这个单词时将这个单词置1,其余置0。问题:每个单词之间彼此信息无关,且训练时需要每个都照顾到2.word embedding:是通过判断向量之间的相似度来度量词之间的语意相关性。其基于的分布式假设是出现在上下文下的词意思应该相近2.Seq2Seq结构模型(序列到序列模型)Seq2Seq模型:输入:一个序列(单词,字母,图片特征)模型: 1.Ecoder编码器原创 2021-08-18 16:53:45 · 169 阅读 · 0 评论