nlp(文本)
酷暑冷冰
这个作者很懒,什么都没留下…
展开
-
命名实体识别方法
线性插值(linearly interpolate)线性插值指的就是图中interpolate公式。其中的一个Layer是Bert中一个transform block。X与X′X^{\prime}X′是相近的句子,可以是KNN中的同类句子; X′X^{\prime}X′也可以由X回译得到。详见论文:https://arxiv.org/pdf/2010.01677.pdf...原创 2021-07-10 22:04:48 · 116 阅读 · 0 评论 -
MLP替代Transformer浅谈
[1] MLP-Mixer: An all-MLP Architecture for Vision - Google Research[2] Beyond Self-attention: External Attention using Two Linear Layers for Visual Tasks - 清华大学[3] Do You Even Need Attention? A Stack of Feed-Forward Layers Does Surprisingly Well on Image原创 2021-05-27 16:40:48 · 1264 阅读 · 0 评论 -
加入对抗学习的零资源、跨语言的文本分类与NER
论文题目:Adversarial Learning with Contextual Embeddings for Zero-resource Cross-lingual Classification and NER因为是跨语言,希望Multilingual BERT输入另一个语言就得到对应的embedding:加入对抗学习:根据上图可知,BERT参数的更新是最大化pLDp_L^DpLD,即Non-English的概率,最小化pEnDp_{En}^DpEnD,即English的概率,而Discri原创 2021-04-24 16:11:51 · 381 阅读 · 0 评论 -
fasttext
FastText之train_supervised参数说明:input_file 训练文件路径(必须)model skipgram或者CBOW default skipgramlr 学习率 default 0.1dim 词向量维度 default 100ws 上下文窗口大小 default 5epoch epochs 数量 defaul原创 2021-03-21 11:43:42 · 373 阅读 · 0 评论 -
Attention机制
文章目录Attention机制的发家史Attention机制的理解引入attentionSeq2seq模型Encoder-Decoder在Decoder中引入Attentionseq2seq中的attention机制Attention的通用定义Attention的计算变体针对attention向量计算方式变体Soft attention、global attention、动态attentionHard attentionlocal attention (半软半硬attention)静态attention针对原创 2020-12-04 10:54:33 · 782 阅读 · 0 评论 -
Glove 词向量
文章目录概述统计共现矩阵使用GloVe模型训练词向量模型公式模型怎么来的我的理解GloVe是如何训练的?参考文献概述GloVe的全称是GloVe: bal Vectors for Word Representation是这门课的老师Christopher D. Manning的研究成果GloVe目标是综合基于统计和基于预测的两种方法的优点。模型目标:词进行向量化表示,使得向量之间尽可能多地蕴含语义和语法的信息流程:输入语料库–> 统计共现矩阵–> 训练词向量–>输出词向量统计原创 2020-11-25 20:09:54 · 419 阅读 · 0 评论