![](https://img-blog.csdnimg.cn/20201014180756930.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大模型
文章平均质量分 81
理论基础、关键技术、交叉应用(basic knowledge\key technology\interdisciplinary application)
ringthebell
Do not set the limit to yourself!
展开
-
Transformers Tutorial教程3-7
Transformers库的一个使用,用这个库就可以很轻松地去使用和训练自己的一个预训练语言模型。outline介绍什么是Transformers,为什么要用它介绍一些比较常用的接口最后会给出一个demo,帮助你们快速地入门。原创 2024-01-26 22:53:07 · 1021 阅读 · 0 评论 -
Transformer and Pretrain Language Models3-5
优点:1、Transformer是一个具有很强表示能力的模型,而且在很多这个任务中都得到了一个验证,目前也有将这些工作迁移到视觉,然后存储到网络等其他领域的一些工作。2、这个模型结构本身非常适合并行计算,因为它的attention的计算过程,包括后面前馈网络计算过程,其实都是可以进行,这个对目前GPU等加速设备非常友好。3、我们通过对attention的一个可视化也可以发现,这个注意力模块其实很好地建模了句子中token和token之间的关系。原创 2024-01-24 08:30:00 · 861 阅读 · 0 评论 -
Transformer and Pretrain Language Models3-4
首先回顾一下之前的RNN的一个端到端的模型,以下是一个典型的两层的LSTM模型,我们可以发现,这样一个RNN模型,一个非常重要的一个缺点就在于,它必须顺序地执行,对于文本这样一个序列,它必须先计算得到第一个位置的一个表示,然后才可以往后计算文本第二个的一个表示,然后接着才能去计算第三个。而这样的模式,其实对于目前并行能力非常强大的GPU等专业设备来说,非常不友好,会造成很多资源浪费。原创 2024-01-23 11:34:51 · 1937 阅读 · 0 评论 -
Transformer and Pretrain Language Models3-3
我们可以看到对于前面机器翻译的这样一个任务,注意力机制其实实现了一种短软对齐的策略,它翻译得到的英文单词会更加关注和表示相同含义的中文单词,比如这里的many更多和airport机场,这样的一个可视化,我们也可以发现模型在一定程度上,学习到这两个语言中一种语义的对齐关系,所以总体来看,注意力机制给RNN带来了很多有益的改变,而且极大地提高了RNN在不同的NLP任务上的表现。我们引入的attention机制到底给端到端的模型带来了什么变化?原创 2024-01-22 09:48:20 · 353 阅读 · 0 评论 -
Transformer and Pretrain Language Models3-2
在这个变体中,w1、w2和v,分别是两个权重矩阵和一个权重向量;tanh是一个激活函数。这样的话最后也可以得到一个标量,作为前面的注意力分数。如果两个向量的维度不一样,我们就需要在中间加上一个权重矩阵,来实现他们之间的相乘,然后最后得到一个标量。它和前面的有一个比较大的不同,它使用了一层的前馈神经网络,来将两个向量变成一个标量,来得到注意力分数。此外还有许多其他的变体,可执行查找了解。原创 2024-01-21 17:08:46 · 587 阅读 · 0 评论 -
Transformer and Pretrain Language Models3-1
attention mechanism注意力机制以下是一个运用RNN模型来解决机器翻译问题的一个具体例子,这个模型中存在一个非常重要的问题,即信息瓶颈的问题原创 2024-01-21 11:55:03 · 1175 阅读 · 0 评论 -
neural network basics2-4
CNN一般都是出现在图像领域,一开始出现是应用在计算机视觉领域里,但由于它结构特殊性,它也可以应用于NLP领域,例如在性态分类关系分类中有很好的应用,则归功于CNN比较擅长于提取局部和位置不变的模式,例如在计算机视觉里面的颜色边角等等,还有NLP里面的短语和一些局部的语法结构等CNN它提取局部模式的一个步骤。主要就是来计算一个句子中所有可能的N元组短语的一个表示。原创 2024-01-18 11:50:01 · 1014 阅读 · 0 评论 -
neural network basics2-3
我们传统的RNN在计算hi的时候,会由当前xi以及之前那个hi-1进行计算而成的,在这里,我们需要将门控机制引入到RNN中门控机制:就是对我们当前输入的信息进行筛选,类似于一个门一样,门打开就是会让你这些信息进来,门关闭的话,相当于你的信息停留在这,所以它决定了会由哪些信息进入到下一层。这里会有两个门控,分别是更新门和重置门,它的作用就在于权衡我们过去的信息,即hi或者是hi-1之类的,和当前我们输入信息他们之间的一个比重问题。原创 2024-01-18 10:45:42 · 764 阅读 · 0 评论 -
neural network basics2-2
两个比较常见的神经网络模型:循环神经网络RNN和卷积神经网络CNN。原创 2024-01-17 17:37:01 · 911 阅读 · 0 评论 -
neural network basics2-1
multilayer;non-linear;生物细胞处理信息后,从轴突中输出若干个信号受神经网络和生物神经元的启发,设计出由计算机能够计算的人工神经元:接受n个数作为输入,然后产生一个数的输出,它由参数w和b以及激活函数f来构成n inputs(w)各权重 +bias(b)偏置权重=output对于多个output:此时b成为一个向量,w为一个矩阵然后依次叠加每一层,进行前向计算,最终得outputQ:一个神经元在输出结果之前,会经过一个非线形的激活函数,那么这个激活函数时干什么用的呢?原创 2024-01-16 18:00:38 · 2081 阅读 · 1 评论 -
Big Model Basics1-2
13年word2vec、14年rnn、15年attention mechanism、17年transformer、18年elmo、bert不断增加他的参数,数据,显著提升各种任务的性能,参数每年10倍速增长,所需数据也变大,原创 2024-01-15 09:53:05 · 869 阅读 · 1 评论 -
NLP Basics1-1
nlp 即让计算机读懂人写好的这些文字,和人一样进行交互和对话,去生成自然语言意义:人类语言是人类智能的体现图灵测试:判断机器是否具备智能(人无法判断对方是人还是机器)nlp是人工智能能够通过图灵测试的一种重要基础工具图灵测试,最初为:imitation game模仿游戏,看起来像人具有人的智能水平2011 IBM Watson deepQA nlp又一个里程碑。原创 2024-01-13 21:19:25 · 885 阅读 · 1 评论