自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(3)
  • 收藏
  • 关注

原创 ELMO,BERT,GPT简介

在预训练之后的BERT引用到具体任务需要有标签的任务进行微调(Fine-Tuning)。BERT的用途:文本分类(情感分析)分析文本属于哪一类词性分类分析每个词的词性逻辑判断判断前一段文本能否推出后一段文本-问题回答给出一段文本D和问题Q,输出两个数s, e,在s和e之间的文字就是答案。(答案必须在文本内)通过学习到的两个向量(橙色和蓝色),与每个词获得的向量分别做向量点积,获得到的积经过softmax函数得到最大可能的两个位置。

2023-12-07 09:34:38 912

转载 基于`transformer`的中译英模型(tensorflow)

具体来说,Multi-Head Attention将输入矩阵分别进行多个头的线性变换,然后对每个头的变换结果分别计算Scaled Dot-Product Attention,最后将每个头的Attention结果拼接在一起并通过一个线性变换输出。这样做是因为对于较大的深度值,点积的大小会增大,从而推动 softmax 函数往仅有很小的梯度的方向靠拢,导致了一种很硬的(hard)softmax。此仓库是我在学习transformer的途中找到的,写的非常好,该仓库下还有一系列的自然语言处理教程,

2023-11-30 10:48:33 516

原创 用tensorflow搭建BiLSTM+Attention构成的seq2seq模型

用Attention层连接decoder_outputs和encoder_outputs,在attention中,通常将decoder_outputs参数放在前面,如此attention会更关注decoder_outputs。模型的效果并不是很好,accuracy只有20%不到,大多数测试中翻译也是错误的。估计是数据处理优化没做好,同时优化方法不够。关于BiLSTM的构建,只能应用于encoder编码器上,因为decoder解码器不能反向。2.类似这篇博客中的嵌套方法。来自于LSTM构建的模型。

2023-11-23 10:59:30 551

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除