降水是反映地表环境状况和全球水循环的关键参数,是气候系统中水分循环和能量交换的重要组成部分,也是表征气候变化的重要指标。降水异常造成的极端天气及气候事件(洪涝、干旱)对人类生产和生活造成极大危害。因此,发展高时空分辨率、高精度的降水产品,具有重要意义。 地面气象站点观测是获取降水数据的常规方法,但受限于站点密度、分布状况以及下垫面复杂程度的影响,通过空间插值生成空间连续分布的降水数据具有很大的不确定性。卫星遥感降水数据以其大尺度和高时空分辨率优势特征,逐渐成为水文研究的重要数据源;但由于卫星反演降水的物理原理和算法存在局限性,其反演降水的精度相对较低。融合海量数据资料的降水产品,可能是提高精度的有效途径。因此,可以尝试使用地形、经纬度等辅助变量,在机器学习算法与地统计学理论框架下,建立多源降水数据融合模型,提高遥感降水精度。
l 计算机硬件:
至少4个逻辑处理器、8G+内存
l 操作系统:
win8+、Linux、mac等64位os
l 软件:
配备Anaconda3 5.2+,安装有Xarray 0.12+、netcdf4、hdf5、cftime、h5py
有一定Python基础
GPM IMERG数据读取
读取HDF5文件
转换netCDF格式
偏差订正方式融合
降水数据的质量控制(阈值法)
利用站点检查订正降水落区
构建订正的样本序列
空间索引匹配临近地面站点(KDtree)
构造订正序列(Gamma分布拟合、累计概率CDF)
逐格点订正遥感降水
过程解释:基本相信遥感降水的的落区,将站点数据通过强度订正方式融合到遥感产品中。这一步可以最的程度上订正遥感降水的系统误差。
使用机器学习方式融合
确定降水落区
降水样本的抽样
降水数据的聚类
分层抽样
过程解释:提高用于机器学习数据的空间和强度上的代表性。
构建融合模型
拆分样本
特征工程(增加特征)
训练模型(random forest、extra forest、LightGBM等常见模型)
重构降水数据
过程解释:机器学习建模为一维数据,需要将一维数据还原为二维数据
提供华北地区1个降水过程个例,包含(GPM IMERG遥感降水数据和站点数据)