![](https://img-blog.csdnimg.cn/20201014180756724.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Transformer
前行的zhu
程序员小白的前行之路
展开
-
如何用pip从阿里云镜像下载python包
代码如下,install后面跟你想要下载的python包以及对应的版本,–index-url后面跟阿里云镜像所在的地址,–trusted-host表示对阿里云添加信任,不然有时候无法成功下载。比如想下一个transformers的库,命令如下:pip install transformers --index-url http://mirrors.aliyun.com/pypi/simple/ --trusted-host mirrors.aliyun.com...原创 2022-03-08 12:17:55 · 4246 阅读 · 1 评论 -
关于使用tfds.load()函数加载tensorflow_datasets数据集由于网络无法加载的问题
当我们想要在本地运行一下tensorflow的一些demo时首先要做的就是加载数据集的问题,但是由于国内网络的问题加上tensorflow_datasets的数据集一般都是几百兆甚至一两个G,所以很容易劝退我等小白,既然网络直接加载数据集几乎不可能成功,那么一个比较容易想到的解决办法便是提前将数据集下载到本地,然后从本地加载tensorflow_datasets的数据集。以tensorflow中的transformer葡萄牙语-英语翻译为例,我们需要加载的数据集为:ted_hrlr_translate/原创 2020-11-23 18:00:42 · 4872 阅读 · 2 评论 -
一个小例子搞懂transformer中的label smoothing(标签平滑)
我们知道transformer中的正则化除了使用常见的dropout,还使用了label smoothing,也就是标签平滑。关于标签平滑的机制,我在网上也看了一些帖子,总觉得说的不是很透彻,所以自己琢磨了一下,打算以二分类的逻辑回归为例,说明一下具体的标签平滑是如何做的。标签平滑既然作为正则化的一种方式,目的肯定是为了防止模型过拟合。我个人的理解是,加入了标签平滑后可以使得模型不至于过度学习,因为就算一个样本分到某类的概率为十分接近1,目标函数仍然会增加一定的损失,这就减轻了模型过度学习的动力。下面我原创 2020-06-07 19:26:40 · 3322 阅读 · 3 评论 -
Transformer完全图解
在学习Transformer之前,你需要学习一下Seq2Seq Attention的内容,可以参考:几张图彻底搞定Seq2SeqSeq2Seq Attention(这三篇就够了,精心发掘整理)Seq2Seq Attention输入输出维度分析(最全面细致)好了,那下面进入正文Transformer在2017年Google的一篇论文“Attention Is All You Need”被提...原创 2019-10-09 16:24:08 · 7228 阅读 · 2 评论