关于现有预报气象大模型的能力上限思考

最新推荐文章于 2024-07-25 16:58:58 发布

Tsingzao-于廷照

最新推荐文章于 2024-07-25 16:58:58 发布

阅读量470

点赞数 10

文章标签：深度学习机器学习

本文链接：https://blog.csdn.net/yutingzhaomeng/article/details/136069365

版权

从2022年开始，以华为pangu weather为代表的气象大模型及fuxi、fengwu等相继涌现，公开发表的文章里也展示了模型与ec预报性能的对比，并且这些大模型也公开了相应的代码或模型，便于人人都可测试使用（如何在本地部署大模型可以参考如何在本地部署现有气象大模型_pip install ai-models-panguweather-CSDN博客

）。

最近尝试对这些大模型尝试进行了相关研阅调研分析，以下是个人的几点思考，也欢迎各位老师专家批评指正（也可以直接看第八条）：

首先，气象大模型在运行效率上的优势比较明显，哪怕穷人版GPU（我用的20年titan rtx）也仅需10多分钟即可实现未来10天全球25公里逐6小时不同等压层的rtuv预报。这与现在主流预报方式是不同的。

其次，从预报性能来说，各模型也都在文章里指出相较于ifs在mse、mae、rmse等方面的优势。因为模型本身在进行参数优化的时候都是以mse、mae、rmse作为loss，所以只要这个问题是可学习的（后面第八条我们讨论为什么可学习），那么模型在mse、mae、rmse指标上是可以达到局部最优的。

第三，我们从模型角度看，无论是pangu、fuxi、fengwu，都仍然是标准transform系列，所以如果对于计算机视觉方向的研究人员来说，模型方法的优势相对于CVPR、iccv等上面的文章吸引力反倒不足。

但是，第四点，不得不提的是，气象输入数据确实庞大，这在计算机视觉里的相关任务还是需要做很多研究工作。而且可以注意一点，大模型里习惯称不同的气象要素为不同的模态。

第五，其实对任意简单的深度学习模型（任意跟视频预测相关的），我们前期有相关实验发现模型性能也都可以，但做不到长序列，所以气象大模型非常让人眼前一亮的点就是它可以实现长时序预测。

所以，第六点，长序列预测这一点是很多相对简单的模型无法比拟的，针对长序问题，更多集中在在模型优化方式或损失函数上的工作。所以相对简单的模型能否实现长时序预测，也是后续值得实验的一点。

第七，要素局限性。

第八，也是最想分享并希望各位老师专家批评指正的点，就是这些大模型的上限在哪儿？

我们可以从模型的训练过程来看，现在大模型大都采用era5再分析资料训练（当然有很多研究都在推动用本地化的再分析资料训练自己的大模型），假定以era5为例，那么，模型本质上是学习了一个era5序列的变化规律（这个描述应该没问题）。

那这个规律是什么，我们就不得不思考era5是怎么来的。简单来说，era5可以视作用ifs用做背景场，再通过资料同化对其订正（不知道这种描述是否有问题），所以大模型刻画的本质规律，是否可以视作在ifs预报上加了资料同化的“扰动”？

具体来说，t+1时刻的ERA5资料（记作xt+1），可以在一定程度上视作，将t时刻的IFS对t+1时刻的预报做背景场（记作yt+1=f(xt;w1)，其中xt是t时刻的era5，f表示IFS预报的函数表达，w1是对应的参数），再同化t+1时刻的观测资料（记作xt+1=g(yt+1;w2)，g表示同化的函数表达，w2是对应的参数）而得。当然同化可能会有其他的时间窗，但道理都一样。

也就是说，xt+1=g(f(xt;w1);w2)，大模型也即是在拟合f和g。那么，以再分析资料训练模型的上限是否就是f和g？

所以我们看文章里大模型与IFS的对比，会发现大模型在前期的优势不明显，而后，大模型的优势开始突出，但应该还会有第三个阶段，IFS与大模型差异不大。

Tsingzao-于廷照

关注

10
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
关于现有预报气象大模型的能力上限思考

从2022年开始，以华为pangu weather为代表的气象大模型及fuxi、fengwu等相继涌现，公开发表的文章里也展示了模型与ec预报性能的对比，并且这些大模型也公开了相应的代码或模型，便于人人都可测试使用（如何在本地部署大模型可以参考。但是，第四点，不得不提的是，气象输入数据确实庞大，这在计算机视觉里的相关任务还是需要做很多研究工作。所以我们看文章里大模型与IFS的对比，会发现大模型在前期的优势不明显，而后，大模型的优势开始突出，但应该还会有第三个阶段，IFS与大模型差异不大。
复制链接

扫一扫