Bert
zyq12345678
这个作者很懒,什么都没留下…
展开
-
google-research/bert官方代码中的坑_run_classifier_效果很差原因
文章目录简介一、学习率相关1.1 warmup1.2 lr decay1.3 二次训练二、shuffle-训练时的数据打乱三、流程相关-Estimator后记简介bert官方代码google-research/bert中有很多很强的设定,稍有改动就会导致结果很差。此文档简单总结如下。google-research/bert版本:d66a146该文档撰写时间:2019年4月11日主要基于任...原创 2019-04-20 16:45:58 · 5069 阅读 · 5 评论 -
transformer语言模型原理解读
文章目录一、简介二、注意力机制2.1 NLP中的注意力2.2 自注意力2.2.1 点积(Dot-Product)2.2.2 具体计算过程:2.3 多头注意力三、位置编码(Positional Encoding)四、残差和前馈(Feed Forward)4.1 为什么残差[3]4.2 前馈五、训练-模型的参数在哪里六、参考文献一、简介基于假设:一个词在句子中的意思,与上下文(语境)有关。与哪些词...原创 2019-05-20 15:59:00 · 2541 阅读 · 1 评论