深度强化学习的泡沫太大 DRL 的可复现性危机。由于发表的文献中往往不提供重要参数设置和工程解决方案的细节, 很多算法都难以复现。有人评论到,“DRL 的成功可能不是因为其真的有效,而是因为人们花了大力气。” 目前普遍的观点是,DRL 可能有 AI 领域最大的泡沫。DRL 的成功归因于它是机器学习界中唯一一种允许在测试集上训练的方法。