![](https://img-blog.csdnimg.cn/20201014180756926.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Datawhale自然语言处理
文章平均质量分 94
Element简
这个作者很懒,什么都没留下…
展开
-
task1 中文预训练模型泛化能力天池赛
目录1 目的2 背景2.1 个人配置2.2 赛题要求2.3 本机跑通Baselinepytorch配置3 准备环节4 模型训练过程5 Docker提交5.1 Docker安装5.2 本机Docker推送1 目的 根据Datawhale大佬们提供的baseline训练模型,并通过docker的方式提交到天池比赛,真的太不容易了。2 背景2.1 个人配置操作系统:mac2.2 赛题要求赛事信息:天池-&..原创 2021-02-21 23:29:25 · 281 阅读 · 0 评论 -
Numpy 数学函数及逻辑函数
目录一、向量化和广播二、数学函数算数运算numpy.addnumpy.subtractnumpy.multiplynumpy.dividenumpy.floor_dividenumpy.power三、三角函数numpy.sinnumpy.cosnumpy.tannumpy.arcsinnumpy.arccosnumpy.arctan四、逻辑函数真值测试numpy.allnumpy.any数组内容¶numpy.isnan原创 2020-10-27 11:01:48 · 2133 阅读 · 12 评论 -
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding 论文研读
主要结构仍是 Transformer Input: a. WordPiece embeddings b. learned positional embeddings, up to 512 tokens。 c. 增加了一个特殊的 token: [CLS], 用于分类任务。这个token的deep feature用于分类任务。 d. Sentence pairs, 两个句子合成一句,并用一个...原创 2019-07-02 20:48:06 · 149 阅读 · 0 评论 -
任务1 -Deep contextualized word representations
论文链接https://arxiv.org/pdf/1802.05365.pdfELMO 是 Embeddings from Language Models 的缩写,即语言模型的词向量表示,也是利用了深度上下文单词表征,该模型的优点:(1)能够处理单词用法中的复杂特性(比如句法和语义)(2)这些用法在不同的语言上下文中如何变化(比如为词的多义性建模)。1、 论文动机?2、 ...原创 2019-06-20 09:22:32 · 179 阅读 · 0 评论 -
Task9 Attention原理
目录 1. 基本的Attention原理1.1 Attention背景及作用1.2 为什么要引入Attention机制1.3 Attention机制分类1.4 Attention机制的计算流程1.5 Attention机制的变种2. HAN的原理(Hierarchical Attention Networks) 3....原创 2019-03-18 22:28:40 · 794 阅读 · 0 评论 -
Task10 BERT
目录1. Transformer的原理和实现1.1 概述1.2 Encoder-Decoder框架1.3 整体架构1.4 EncoderEncoderLayer和残差网络多头注意力机制 层归一化1.5 词向量前馈网络位置编码1.6 Deocder1.7 线性层和Softmax2. BERT的原理2.1 BERT模...原创 2019-03-21 22:01:18 · 705 阅读 · 0 评论 -
Task8 循环神经网络
目录一、RNN基础1. 1 RNN的结构1.2 循环神经网络的提出背景1.3BPTT算法二、双向RNN三、 递归神经网络四、LSTM、GRU的结构4.1 LSTM4.2 GRU( Gated Recurrent Unit,LSTM变体)五、针对梯度消失(LSTM等其他门控RNN)六、 Memory Network七、 Text-RNN的原理...原创 2019-03-17 19:38:47 · 1132 阅读 · 1 评论 -
Task6 简单神经网络
1. 文本表示:从one-hot到word2目录1. 文本表示:从one-hot到word2vec。1.1one hot 相关概念1.2 word2vec相关概念2. 走进FastText2.1 FastText的原理1、应用场景2、优缺点3、FastText的原理4.fasttext模型结构5.模型对比3.利用FastText模型进行文本分类...原创 2019-03-12 16:56:39 · 489 阅读 · 0 评论 -
Task5 神经网络基础
一、前馈神经网络概念:前馈神经网络、网络层数、输入层、隐藏层、输出层、隐藏单元、激活函数前馈神经网络(feedforward neural network),也叫作多层感知机(MLP),是典型的深度学习模型。前馈网络的目的是近似某个函数 f^。例如,对于分类器, y=f^(x) 将输入 x 映射到一个类别 y 。前馈网络定义了一个映射 y=f(x;t) ,并且学习参数t的值,使它能够得到...原创 2019-03-12 09:11:30 · 1197 阅读 · 0 评论 -
Task7 卷积神经网络
目录1.定义1.1 卷积运算的定义1.2 动机(稀疏权重、参数共享、等变表示)1.2.1 稀疏连接1.2.2 参数共享1.2.3 等变表示1.3 一维卷积运算和二维卷积运算1.3.1 一维卷积1.3.2 多维卷积2. 反卷积(tf.nn.conv2d_transpose)2.1 卷积2.2反卷积(后卷积,转置卷积)2.3 代码实现3...原创 2019-03-14 23:23:23 · 1234 阅读 · 0 评论 -
Task4 传统机器学习
1. 朴素贝叶斯的原理基本方法:朴素贝叶斯是典型的生成学习方法,生成方法由训练数据学习联合概率分布P(X,Y),然后求得后验概率分布P(Y|X),具体来讲,就是利用训练数据学习P(X|Y)的估计,得到联合概率分布:P(X,Y)=P(Y)P(X|Y),概率估计方法可是极大似然估计或是贝叶斯估计。2. 利用朴素贝叶斯模型进行文本分类文本分类步骤(1)定义阶段:定义数据以及分类...原创 2019-03-09 21:47:54 · 557 阅读 · 0 评论 -
Task3 特征选择
1. TF-IDF原理。TF-IDF原理概述在一份给定的文件里,词频(term frequency, TF)指的是某一个给定的词语在该文件中出现的次数。这个数字通常会被归一化(分子一般小于分母区别于IDF),以防止它偏向长的文件。(同一个词语在长文件里可能会比短文件有更高的词频,而不管该词语重要与否。)逆向文件频率 (inverse document frequency, IDF)是...原创 2019-03-06 20:11:19 · 410 阅读 · 0 评论 -
Task1 数据集探索
1.数据集1.1数据集的下载THUCNews数据子集:https://pan.baidu.com/s/1hugrfRu 密码:qfud英文数据集:IMDB数据集 Sentiment Analysis数据集划分如下:cnews.train.txt:训练集cnews.val.txt:验证集cnews.test.txt:测试集1.2 数据预处理1.3 搭建CNN模型...原创 2019-03-03 21:55:22 · 338 阅读 · 0 评论 -
知识星球-预备知识
1.tenorflow 安装1. tensorflow安装 推荐Anaconda(针对自己操作系统和位数下载对应版本);推荐用conda create创建对应的python环境(注:某些python版本可能不支持tensorflow);通过pip install来安装tensorflow。参考: tensorflow安装教程 TensorFlow 安装教程 | TensorFlowNews...翻译 2019-03-03 14:03:46 · 435 阅读 · 0 评论 -
Task2 特征提取
1. 基本文本处理技能1.1 分词的概念(分词的正向最大、逆向最大、双向最大匹配法);最大匹配法【Maximum Matching】MM最大匹配是指以词典为依据,取词典中最长单词的字数量作为截取词的起始匹配长度,将截取后的最大长度的词与词典中的词进行比对(为提升扫描效率,还可以根据字数多少设计多个字典,然后根据字数分别从不同字典中进行扫描匹配), 直到还剩一个单字则终止,如果该单字无法...原创 2019-03-05 21:49:02 · 230 阅读 · 0 评论