google-research/bert官方代码中的坑_run_classifier_效果很差原因

最新推荐文章于 2024-07-29 09:33:03 发布

zyq12345678

最新推荐文章于 2024-07-29 09:33:03 发布

阅读量5.1k

点赞数 7

分类专栏： NLP Bert 文章标签： bert tensorflow run_classifier

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zyq12345678/article/details/89419752

版权

本文分析了google-research/bert中run_classifier.py的常见问题，重点关注学习率策略，包括warmup、lr decay和二次训练的注意事项，并讨论了训练时数据打乱的重要性。建议在调整batch_size或进行二次训练时，适当修改num_train_epochs以保持学习率的有效性，并在数据处理阶段确保足够的shuffle操作。

摘要由CSDN通过智能技术生成

文章目录

简介

bert官方代码google-research/bert中有很多很强的设定，稍有改动就会导致结果很差。此文档简单总结如下。
google-research/bert版本：d66a146

该文档撰写时间：2019年4月11日

主要基于任务：run_classifier.py

一、学习率相关

代码使用了带warmup和decay的Adam（AdamWeightDecayOptimizer），这两个参数策略是动态学习率常用的，问题在于，官方代码中此两参数跟命令行参数num_train_epochs-训练轮数强关联，如果盲目修改代码而不恰当地设置num_train_epochs参数就会很糟糕。

一个重要、多次用的参数：训练总步数num_train_steps=num_train_steps = int(len(train_examples) / FLAGS.train_batch_size * FLAGS.num_train_epochs)是由样本数、batch_size和命令行参数num_train_epochs轮数计算出来的。【很重要，一定注意】

1.1 warmup

在训练的开始阶段使用较小的学习率再逐渐调整到预设初始学习率对训练有一定的帮助（某共识，出处未寻）。代码中使用了线性的调整，

最低0.47元/天解锁文章

关注

7
点赞
踩
11

收藏

觉得还不错? 一键收藏
5
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 5

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。