![](https://img-blog.csdnimg.cn/20201014180756738.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
NLP学习
文章平均质量分 76
wumo_rfr
这个作者很懒,什么都没留下…
展开
-
Datawhale-NLP-序列标注
1. 什么是序列标注 在上面这个例子中有两个 saw ,其中第一个 saw 是动词,而第二个 saw 是名次,所以需要理解整个句子的含义才能做出正确的词性标注。 序列标注(Sequence Tagging)是一个比较简单的NLP任务,但也可以称作是最基础的任务。序列标注的涵盖范围是非常广泛的,可用于解决一系列对字符进行分类的问题,如分词、词性标注、命名实体识别、关系抽取等等。 {\ \ \ \ \ \ } &nbs原创 2021-08-28 17:34:00 · 243 阅读 · 0 评论 -
Datawhale-NLP-文本分类
1. 数据集 1.1 下载方式 1.科学上网,下载相关数据集 2.下载资源,后 (1)将下载好的数据集存放到{user_dir}.cache\huggingface\datasets目录 注:Windows用户目录: C:\Users{用户名}.cache\huggingface\datasets (2) 重新执行加载数据集的代码 1.2 数据集说明 我们将展示如何使用 Transformers代码库中的模型来解决文本分类任务,任务来源于GLUE Benchmark. GLUE榜单包含了9个句子级别的分类原创 2021-08-26 17:10:15 · 279 阅读 · 0 评论 -
Datawhale-NLP-BERT
1-Tokenization分词-BertTokenizer 使用库函数 import collections import os import unicodedata from typing import List, Optional, Tuple from transformers.tokenization_utils import PreTrainedTokenizer, _is_control, _is_punctuation, _is_whitespace from transformers.u原创 2021-08-24 10:17:45 · 60 阅读 · 0 评论 -
Datawhale八月学习-NLP专题-BERT代码
1.BERT Tokenization 分词模型(BertTokenizer) 1.1 tokenizer基本含义 tokenizer就是分词器; 只不过在bert里和我们理解的中文分词不太一样,主要不是分词方法的问题,bert里基本都是最大匹配方法。 最大的不同在于“词”的理解和定义。 比如:中文基本是字为单位。 英文则是subword的概念,例如将"unwanted"分解成[“un”, “##want”, “##ed”] 请仔细理解这个做法的优点。 1.2 bert里涉及的tokenizer 1)Bas原创 2021-08-22 16:26:48 · 553 阅读 · 0 评论 -
Datawhale八月学习-NLP专题-BERT和GPT
一、 BERT 1. 什么是BERT 1)BERT简介: 本文主要介绍一个名为BERT的模型。BERT与现有语言模型不同的是,BERT旨在通过调节所有层中的上下文来进行深度双向的预训练。因此,预训练的BERT表示可以通过另外的输出层进行调整,以创建用于广泛任务的状态模型,例如问题转换和语言参考,而无需实质的任务特定体系结构修改。 BERT全称是“Bidirectional Encoder Representation from Transformers“,即双向Transformer解码原创 2021-08-20 17:06:50 · 259 阅读 · 0 评论 -
Datawhale八月学习-NLP专题-注意力机制与transformer
1.数据转换(将单词转换为向量) 1.One hot编码:本质是创建一个足够长的数组使其包含所有单词,且每一个单词都有他自己的位置,当出现这个单词时将这个单词置1,其余置0。 问题:每个单词之间彼此信息无关,且训练时需要每个都照顾到 2.word embedding:是通过判断向量之间的相似度来度量词之间的语意相关性。其基于的分布式假设是出现在上下文下的词意思应该相近 2.Seq2Seq结构模型(序列到序列模型) Seq2Seq模型: 输入:一个序列(单词,字母,图片特征) 模型: 1.Ecoder编码器原创 2021-08-18 16:53:45 · 167 阅读 · 0 评论