摘要:随着人工智能技术发展,大模型被开发并应用于业务气象预报。聚焦海河“23·7”流域性特大暴雨洪水,采用气象大模型开展暴雨过程回顾性预报实验,对比欧洲中期天气预报中心业务气象预报产品HRES,检验气象大模型降水预报对于洪水灾害防御的推广应用价值。研究结果表明:相比传统数值气象预报,GraphCast、FuXi和AIFS三个气象大模型对暴雨过程、落区形态、中心位置和发生时间的预报更准确。对于逐6h降水量,大模型在不同预见期下均呈现相当的预报精度。对于累积降水量,GraphCast、AIFS和HRES预报降水强度、暴雨过程和落区范围接近实况,当起报时间提前到1d前,研究区平均累积降水量为124.6mm,预报累积降水量分别为132.7mm、115.5mm和140.0mm。对于最大降水量,GraphCast、FuXi和AIFS降水强度误差较HRES更大,时间和位置误差更小。实况最大累积降水量为484.8mm,当起报时间提前到1d前,GraphCast、FuXi、AIFS和HRES的预报值分别为329.7mm、190.1mm、251.2mm和415.3mm。整体上,气象大模型能够为洪水灾害防御提供有效的降水预报信息,服务于水旱灾害防御业务工作。
关键词:气象大模型;极端降水;降水预报;洪水灾害防御;人工智能
作者简介:赵铜铁钢,教授,主要从事水文预报研究相关工作。
通信作者:李强,博士,主要从事水文预报研究相关工作。E-mail:liqiang65@mail2.sysu.edu.cn受季风气候、地形等因素影响,暴雨所导致的洪涝灾害每年对我国经济社会发展造成一定影响。例如,2021年河南郑州“7·20”特大暴雨,暴雨强度大、时间集中,观测雨量突破内陆地区小时降雨量历史极值,导致严重城市内涝和超警洪水;2022年珠江“22·6”特大洪水,暴雨强度大、范围广、历时长,引发7次编号洪水,其中北江第2号洪水为超100年一遇特大洪水;2023年海河“23·7”流域性特大暴雨洪水,降水强度大、时空集中,单站累积降水量超过1000mm,洪水量级大、涨势猛、演进快,为海河流域60年来最大场次洪水。
随着人工智能技术发展,大模型被开发并应用于业务气象预报。相比传统数值天气预报模型,气象大模型在有效预见期、计算速度和运行成本等方面具有明显优势。例如,谷歌DeepMind开发的GraphCast,采用图神经网络编码器-解码器架构,构建从经纬度网格到多网格特征的映射,将大模型预报时效提升到10d;复旦大学等开发的伏羲(FuXi),采用U-Transformer架构,使用级联模型和多步损失函数减少时间累积误差,将预报时效提升到15d;欧洲中期天气预报中心(ECMWF)开发的AIFS,集成Transformer和图神经网络编码器-解码器,预报时效达15d,已用于业务气象预报。
聚焦海河“23·7”流域性特大暴雨洪水,本文针对气象大模型GraphCast、FuXi和AIFS进行适用性评估,并与ECMWF高分辨率气象预报产品(HRES)进行对比。面向洪水灾害防御,从逐6h降水量、累积降水量和最大降水量3个方面评估气象大模型极端暴雨预报精度。首先,针对逐6h降水量,使用受试者工作特征(ROC)曲线评估不同预见期和降水强度下的预报精度;其次,针对过程累积降水量评估暴雨落区、过程和强度的预报效果;最后,针对最大6h降水量和最大累积降水量评估暴雨极值位置、强度及发生时间的预报误差。
气象大模型运行环境
GraphCast、FuXi和AIFS这三种代表性气象大模型均由ECMWF第5代大气再分析数据集(ERA5)训练而成。它们的业务版本均进行了微调,支持HRES的初始场数据作为输入。采用自回归方法以前两个时间步的气象变量作为输入,生成下一个时间步的预报数据,时间分辨率为6h,水平分辨率为0.25°×0.25°。大模型架构和参数等基本信息如下表所示。
面向业务气象预报,本文采用HRES的初始场数据作为驱动,搭建业务化运行环境。硬件、软件和输入数据等环境配置如下表所示。值得指出的是,气象大模型训练所用的ERA5数据并未用作驱动,原因在于其滞后5d发布,不能满足业务预报时效性需求。HRES水平分辨率为0.1°×0.1°,时间分辨率最高1h,预见期最长15d,在世界标准时间每日0时、6时、12时和18时生成。ECMWF动态公开最近3d重采样至0.25°×0.25°的HRES初始场数据和预报数据,其中初始场数据为基于卫星和气象站等观测生成的同化数据,用于驱动ECMWF综合预报系统生成HRES预报数据。整体上,HRES既是国际气象业务预报的基准性数据,也是我国天气预报业务的重要支撑数据。研究表明,HRES对河南郑州“7·20”特大暴雨和海河“23·7”流域性特大暴雨洪水的预报性能优于其他全球数值天气预报产品。
气象大模型分为实时预报和回顾预报两种运行状态。实时预报通过ECMWF数据接口下载HRES初始场数据,经预处理驱动大模型生成预报。回顾预报通过ECMWF档案检索系统(MARS)下载HRES存档的初始场数据,经过预处理驱动气象大模型生成历史回报。首次运行气象大模型时,加载权重数据、创建计算图等过程相对耗时,业务化运行后无需重复加载。经测试,GraphCast首次运行生成10d预报需要约150s,FuXi需要约90s,AIFS需要约70s;业务化运行时,GraphCast、FuXi和AIFS生成10d预报所需时间分别为70s、80s和60s左右。
暴雨预报实验设计
1.研究区域与数据
海河流域总面积32万km²,西、北和西南三面环山,山区与平原之间过渡带短促。受半湿润半干旱温带季风气候影响,海河流域降水时空分布不均,7月下旬到8月上旬极易出现短历时强降水。“23·7”流域性特大暴雨洪水中,海河流域累积降水总量达494亿m³,永定河等8条河流发生有实测记录以来最大洪水,造成京津冀超过500万人受灾,直接经济损失超过1600亿元。根据暴雨落区范围,将35°N113°E—41°N117°E作为回顾性预报实验的研究区域。
以多源加权集合降水(MSWEP)数据作为实况降水数据,该数据集成卫星遥感、大气再分析及雨量站等多源降水资料,提供1979年至今全球0.1°×0.1°逐3h降水数据,是目前国际公认的高精度降水数据产品之一。相较于其他全球降水数据产品,MSWEP在表征地表“真实”降水方面表现更为出色,在对地观测、气候系统演化分析以及暴雨洪水预报等领域得到了广泛应用。本文选取最新MSWEPV2.8版本数据,时间分辨率重采样至6h,通过双线性插值重采样至0.25°×0.25°。此外,通过MARS下载重采样至0.25°×0.25°分辨率的HRES数据,预见期为0~240h逐6h,以HRES初始场数据驱动气象大模型,并将气象大模型预报数据与HRES预报数据进行对比。
2.预报精度评价
采用ROC曲线评估气象大模型暴雨预报精度,利用ROC技能分数(ROCSS)衡量暴雨预报命中和误报之间的整体判别能力。计算过程见式(1)~式(5):
式中,AUC表示ROC曲线下的面积,计算公式为:
式中,H和F分别代表真阳性率和假阳性率,计算公式为:
式中,N代表网格数量,个;q为设定的降水量阈值,mm;fn和on分别表示网格n的预报降水量和观测降水量,mm;I代表指示函数,计算公式为:
通过计算q所有可能取值下的H和F,绘制ROC曲线并计算ROCSS,从而综合考虑研究区所有网格不同量级降水信息。ROCSS取值范围为-1~1,数值越高代表预报精度越高。
历史暴雨回顾性预报
1.逐6h降水预报精度
针对海河“23·7”流域性特大暴雨洪水逐6h降水量,各模型预报精度如下图所示。预见期为6h时,GraphCast、FuXi、AIFS和HRES的ROCSS中位数分别为0.58、0.47、0.62和0.20。随着预见期从6h增大到240h,各模型的ROCSS变化范围增大,预报精度呈现下降趋势。当预见期低于4d时,GraphCast和AIFS的ROCSS基本大于0;当预见期超过4d时,预报精度明显下降,ROCSS出现较多负值。当降水量较大时,各模型的降水预报精度下降,表现为热力图中ROCSS值较低条带与强降水在时间上耦合。相比HRES和FuXi,GraphCast和AIFS在预报较小降水时表现更好。FuXi在5~6d预见期精度变化明显,热力图呈现清晰水平分界,对应其预见期5d前后子模型不同的级联架构。对HRES,世界标准时间6时和18时起报的预见期为1~96h,因此ROCSS在预见期超过4d时为空值。
根据国家标准《降水量等级》(GB/T 28592—2012)对12h和24h降水等级进行划分,将6h降水量划分为中雨[2.5mm,7.5mm)、大雨[7.5mm,15.0mm)和暴雨[15.0mm,+∞),预报精度如下图所示。整体上,预报精度与预见期呈负相关关系;相比中雨和暴雨,各模型对大雨的预报精度更高。以大雨预报为例,随着预见期从1d增加到3d,GraphCast的ROCSS中位数从0.78下降到0.77(减少1.3%),FuXi从0.85下降到0.80(减少5.9%),AIFS从0.79下降到0.70(减少11.4%),HRES从0.63下降到0.53(减少15.9%)。随着降水量从大雨增加到暴雨,各模型预报精度表现出下降趋势,3d预见期的结果显示,GraphCast的ROCSS中位数从0.77下降到0.28(减少64%),FuXi从0.80下降到0.01(减少99%),AIFS从0.70下降到0.21(减少70%),HRES从0.53下降到0.29(减少45%)。
2.累积降水预报精度
各模型对于累积降水量的预报精度如下图所示。总体上,GraphCast、FuXi、AIFS和HRES预报降水落区大致符合实况,对累积降水量有预报提示。其中,HRES预报累积降水量相对更好,但高估了300mm以上降水的落区范围,低估了降水强度。相比之下,GraphCast、FuXi和AIFS的降水落区更平滑,低估了降水中心区域的累积降水量,对300mm以上降水的强度和落区范围预报均偏小,FuXi的低估程度相对更大。随着起报时间从世界标准时间7月28日0时(暴雨前1d)提前到7月26日0时(暴雨前3d),GraphCast、FuXi、AIFS和HRES预报300mm以上降水强度和落区面积减少,HRES预报强降水中心较实况偏西南,GraphCast和AIFS大致预报出强降水中心位置。
各模型区域平均累积降水量预报精度评估结果如下图所示。整体上,GraphCast、AIFS和HRES预报降水量和降水过程更接近实况。MSWEP累积降水量为124.6mm,当起报时间提前到1d前,GraphCast、FuXi、AIFS和HRES的预报累积降水量分别为132.7mm、83.2mm、115.5mm和140.0mm,ROCSS分别为0.79、0.57、0.65和0.73;当起报时间提前到3d前,GraphCast、AIFS和HRES的预报累积降水量更接近基准值,分别为126.9mm、121.8mm和121.0mm,ROCSS分别为0.71、0.71和0.34,GraphCast和AIFS的预报降水时间序列比HRES更接近实况降水序列。GraphCast、AIFS和HRES预报累积降水量的互补累积分布函数曲线更接近MSWEP降水量的分布曲线,预报精度更高。
3.最大降水预报精度
对于区域平均最大6h降水量,各模型预报结果如下图所示。总体上,GraphCast、FuXi、AIFS和HRES均在一定程度上预报出最大6h降水的强度、位置和落区形态,对强降水过程预报有业务参考价值。相比实况降水落区,HRES落区过于离散化,40mm以上核心落区更分散,降水极值和落区范围偏小;气象大模型核心降水落区形态和位置更接近实况,但边界过于平滑且低估了降水极值,显示出AI模型固有过平滑问题。随着起报时间从世界标准时间7月29日0时(最大6h降水前1d)提前到7月27日0时(最大6h降水前3d),各模型预报降水落区形态和位置与实况的偏差变大,低估极值更明显。
针对网格最大6h降水量和最大累积降水量,各模型预报发生位置、降水强度和时间误差如下图所示。整体上,HRES对降水强度的预报误差较GraphCast、FuXi和AIFS更小,但在发生时间上不如气象大模型准确。实况最大6h降水量和最大累积降水量分别为127.9mm和484.8mm,当起报时间提前到1d前,HRES更准确,预报值分别为117.8mm和415.3mm,GraphCast分别为84.8mm和329.7mm,FuXi分别为42.2mm和190.1mm,AIFS分别为61.9mm和251.2mm,而气象大模型对最大累积降水量发生位置的预报更准确;当起报时间提前至3d前,HRES对最大降水强度的预报更准确,气象大模型预报发生时间更准确,HRES、GraphCast、FuXi和AIFS预报最大6h降水发生时间的误差分别为24h、0h、6h和-12h。
结语
聚焦海河“23·7”流域性特大暴雨洪水,本文采用气象大模型开展暴雨过程回顾性预报实验,对比ECMWF业务气象预报精度,检验气象大模型降水预报对于洪水灾害防御的推广应用价值。结果表明,一台48G显存的小型工作站即可支撑气象大模型运行,在2min内生成10d全球气象预报,能满足实时业务预报要求。相比传统数值天气预报,气象大模型对暴雨过程、落区形态、中心位置和发生时间的预报更准确,能够为洪水灾害防御提供具有业务参考价值的降水预报信息。三种大模型中,GraphCast预报累积降水量和最大降水量性能更好,更适用于本次极端暴雨事件的预报。
面向业务预报,气象大模型还存在过平滑、分辨率低和可解释性差的局限性。大模型的训练数据ERA5在我国区域存在偏差,其降水数据尤为明显;同时极端降水事件训练样本较少,限制了大模型预报暴雨强度的能力。此外,基于图神经网络的GraphCast和AIFS对极端暴雨强度的低估更小,可能比U-Transformer更适合预报极值。当前大模型大多采用6h和0.25°×0.25°的分辨率,过低的时空分辨率可能导致低估局部突发极端暴雨事件的强度。“黑箱”的大模型难以提供预报结果的解释依据,会降低可信度。此外,未来还有待基于气象站观测数据对气象大模型的极端暴雨预报性能作进一步评估,并与多种业务预报产品进行对比。