NLP
文章平均质量分 88
Neways谭
这个作者很懒,什么都没留下…
展开
-
Transformer
TransformerbaseCNNRNN拓展结构:双向RNN拓展结构:多层RNNLSTMGRUAttentionTransformerbase传统的word2vec虽然利用了上下文关系,但是在使用过程中,是直接采用词矩阵进行映射,没有考虑上下文关系,所以会导致同文歧义的情况。所以这里需要考虑在词向量基础上构建上下文的关系。CNNCNN是普通神经网络基础上考虑稀疏权重和共享参数。RNNRNN就是普通神经网络基础上引入记忆考虑到上下文之间的关系RNN的基本结构如果链接起来看拓展结构原创 2021-01-09 21:09:53 · 914 阅读 · 4 评论 -
TomBert:一种基于Bert改进的多模态的情感识别方法
TomBert摘要引言模型数据描述mBERTTomBERT摘要论文地址为Adapting BERT for Target-Oriented Multimodal Sentiment Classification基于目标的情感分类是细粒度情感分类的重要任务。即我们关注输入句子中部分,视作目标,对这一部分进行情感分析。传统方法只注重基于文本的情感分类,这边考虑图文多模态融合的方法,提出了新的TMSC(target-oriented multimodal sentiment classification)原创 2021-01-04 15:17:09 · 2860 阅读 · 0 评论 -
Transformer的改进
Transformer的改进Transformer简介Efficient Transformer简介Fixed PatternsCombination of PatternsLearnable PatternsMemoryLow-RankKernelsRecurrence性能比较Transformer简介Transformer的核心是self-attention,通过计算输入序列中元素与其他所有元素的相关性来获取加权得分。但是这一步骤需要 O(n2)O(n^2)O(n2)的时间和空间复杂度,因为需要两个原创 2020-12-21 11:53:57 · 3187 阅读 · 0 评论 -
多模态学习入门和实践
多模态学习概念主要任务Representation对齐翻译融合(Multimodal Fusion)协同学习(co-learning)概念模态(Modality) 事物发生的方式主要任务Representation学习将多模态数据整合到一个特征表示中。其中,通过利用多模态之间的互补性,剔除模态间的冗余性,从而学习到更好的特征表示。(如下例子)展现方式主要如下:joint联合在一个展现空间中coordinated,不同模态展现在不同空间中,但空间之间相互约束对齐将多模态的元素对齐翻原创 2020-12-16 16:42:43 · 2568 阅读 · 0 评论 -
从DSSM到双塔模型
从DSSM到双塔DSSM背景结构Word Hashingnegative sampling拓展Google Two Tower ModelDSSM文献链接DSSM背景将自然语言转化为向量,计算向量的相似度作为两句(query&doc)的相似度历史方法:单词向量空间模型:向量维度是词表,值是词频。计算简单,但是无法解决一词多义(polysemy)和多词一义(synonymy)话题向量空间模型(潜语义分析,LSA) : X = TY,X是单词向量空间,T是话题空间,Y是文本在话题空间的表原创 2020-12-15 20:56:26 · 768 阅读 · 0 评论 -
ALBERT: 轻量级的BERT
ALBERT前言当前的趋势是预训练模型越大,效果越好,但是受限算力,需要对模型进行瘦身。这里的ALBERT字如其名(A lite BERT),就是为了给BERT瘦身,减少模型参数,降低内存占用和训练时间(待思考)。论文来源:Lan, Z. , Chen, M. , Goodman, S. , Gimpel, K. , Sharma, P. , & Soricut, R. . (2019). Albert: a lite bert for self-supervised learning of原创 2020-12-12 22:16:16 · 556 阅读 · 0 评论 -
BERT压缩
BERT压缩之前的压缩方法三层BERT:哈工大WWM_RBT3之前的压缩方法三层BERT:哈工大WWM_RBT3Whole Word Masking (wwm)是BERT的一个掩码改进版本。原先的掩码是随机将token掩盖(80%替换为[MASK],10%替换别的词,10%不处理),但是一个词根据wordpiece可能拆分成多个token,掩码可能不会将这个词全部隐藏。因此,推出了全掩码,即将命中token的整个单词掩藏,作者认为这样会易于预测。哈工大WWM正式在此基础上提出对中文的掩码。中文不存在原创 2020-12-11 14:59:27 · 351 阅读 · 0 评论 -
RoBERTa:BERT的优化方案
RoBERTa前言说明BERT简介结构输入训练目标MLMNSP优化AdamGELU数据相融实验动态OR静态掩码模型输入格式和NSP lossBatch size文本编码RoBERTaRoBERTa论文地址前言说明BERT模型是欠训练的,作者提供了一个超参优化的BERT训练模型RoBERTa, 即稳健优化的BERT方法(Robustly Optimized BERT Pretraining Approach)优化的点包括:训练时间更长,更大的batch,更多的数据去掉了NSP训练(BERT的两个原创 2020-12-03 19:47:57 · 2352 阅读 · 0 评论 -
优化方法浅析
优化算法SGD动量法AdaGradRMSPropAdamNadam思路参考一个框架看懂优化算法之异同 SGD/AdaGrad/AdamSGD随机梯度下降方法gt=∇f(wt)g_t = \nabla f(w_t)gt=∇f(wt)wt+1=wt−αgtw_{t+1} = w_t - \alpha g_twt+1=wt−αgt动量法为了解决梯度下降收敛过慢的问题,因为存在病态曲率。梯度下降沿着山沟的山脊反弹,向极小的方向移动较慢。这是因为脊的表面在W1方向上弯曲得更陡峭。具体介原创 2020-12-03 16:36:45 · 490 阅读 · 0 评论 -
BERT文本分类代码_来源huggingface
模型需要提前设定随机种子和框架样式,这里的框架样式主要是指在进行卷积计算时候选择的算法。在加速器cuDnn中,针对卷积有多种优化算法,不同的优化算法会对结果产生差异。torch.backends.cudnn.deterministic = TrueTrue每次返回的卷积算法将是确定的,默认的,结合确定的随机种子,可以确保结果可复现,缺点是速度性能会慢。torch.backends.cudnn.benchmark = Falsecudnn为了提升性能使用了基准测试,每次调用cuDNN卷积算法,利原创 2020-12-02 21:31:17 · 702 阅读 · 0 评论 -
高效文本分类工具:fastText
fasttext定义结构与CBOW结构的不同点输入层改进: subword定义fasttext是一个单隐层的线性分类器,结构上是CBOW的一个简单改进,将输出由中心词改为了分类标签,输入改为整个句子的n-gram(分词)。关于CBOW结构可以参见之前的文章词嵌入模型word2vec结构与CBOW结构的不同点不同点包括:输入层不再是滑动窗口的上下文单词,而是整个句字的分词(包括分字和字符层级的分词)输出层不再是中心词,而是分类标签,意味着输出矩阵不再是V∗DV* DV∗D,而是N∗DN *原创 2020-11-23 18:36:15 · 1417 阅读 · 1 评论 -
词嵌入模型word2vec
Word2Vec引言解释计算方法CBOWskip-gram引言解释词嵌入即利用向量来表示单词,表示原则是一个单词的意思是由经常出现在它附近的单词给出的,即我们需要刻画单词的上下文关系。转化成数学就是,我们需要构建一个词空间,用词空间里的向量来表示单词,相似词对应的词向量在空间上距离近如何去构建一个词向量空间呢,我们延续上文神经语言模型_逐段解读的方法,利用神经网络的方法。计算方法CBOWCBOW是Continuous Bag-of-Words Model,skip-gram...原创 2020-11-18 15:38:30 · 1848 阅读 · 0 评论 -
神经语言模型_逐段解读
神经网络语言模型摘要引言神经模型并行执行实验结果拓展工作OOV待解决的工作结论原文:Kandola, E. J. , Hofmann, T. , Poggio, T. , & Shawe-Taylor, J. . (2006). A neural probabilistic language model. Studies in Fuzziness & Soft Computing, 194, 137-186.原文地址A Neural Probabilistic Language Mode原创 2020-11-13 16:33:03 · 539 阅读 · 0 评论 -
语言模型:n-grams
语言模型定义n-grams模型评价指标:困惑度参考资料定义语言模型是定义在单词序列上的概率模型,通常构建为字符串sss的概率分布p(s)p(s)p(s),这里的p(s)p(s)p(s)反映是字符串sss作为一个句子出现的概率。需要注意的是,与语言学不同,语言模型和句子是否合乎语言没有关系。n-grams模型语言中存在上下文相关,理论上下文应当与上文所有信息相关,但是这样必然会导致:模型参数空间巨大计算的概率数据矩阵严重稀疏为了解决上述问题,我们提出了马尔可夫假设:P(xt+1∣xt,...原创 2020-11-12 22:23:00 · 1011 阅读 · 0 评论