微软发布首个大气AI基础模型Aurora

2024年06月05日 由 daydream 发表 96 0

微信截图_20240605095742


Aurora是微软研究人员开发的一款先进的AI基础模型,旨在通过深入解析庞大的大气数据,提炼出有价值的信息,从而提升天气预报的精准度。这款模型特别针对极端天气事件,如Storm Ciarán这样的快速加剧、峰值风速极高的天气现象,进行了专门的优化,以应对现有AI天气预报模型难以应对的挑战。


微信截图_20240605095707


Aurora作为一款拥有13亿参数的3D基础模型,专注于高分辨率的天气和大气过程预报。它采用了灵活的3D Swin Transformer结构,并结合了基于Perceiver的编码器和解码器技术。在预训练阶段,Aurora被精心调整,以最小化多个不同分辨率、变量和压力级别的异构数据集上的误差。接着,该模型通过两阶段的微调过程,首先是短期微调预训练权重,然后利用低秩适应(LoRA)技术进行长期(展开)微调。经过微调后的模型,可以适应不同分辨率的各种操作预测场景。


Aurora的强大之处在于其在超过一百万小时的多样化天气和气候模拟数据上的训练经历,这使得它能够全面理解大气动力学的复杂机制。即使在数据稀缺地区或极端天气情况下,Aurora也能在广泛的预测任务中表现出色。它以0.1°(赤道附近大约11公里)的高空间分辨率运行,能够捕捉大气过程的细微变化,提供比以往更准确的操作预测,而计算成本仅为传统数值天气预报系统的一小部分。据估计,Aurora相对于最先进的集成预报系统(IFS),在计算速度上能提高约5000倍。


除了其惊人的准确性和效率外,Aurora还因其多功能性而备受瞩目。它能够预测多种大气变量,包括但不限于温度和风速,以及空气污染水平和温室气体浓度。Aurora的架构设计使其能够处理异构的黄金标准输入,并在不同的分辨率和保真度级别上生成预测。通过在广泛的数据语料库上进行预训练并在特定任务上进行微调,Aurora学会了捕捉大气中的复杂模式和结构,即使在特定任务的训练数据有限的情况下,也能表现出色。


Aurora在预测大气化学和空气污染方面也展现出了快速的能力。例如,它能够准确预测二氧化氮的总柱浓度,并在与CAMS分析对比时表现出色。由于二氧化氮等大气气体在空间分布上的不均匀性,其预测极具挑战性。特别是在东亚人口密集地区等人为排放量大的地区,CAMS中的大多数变量都倾向于高值。此外,这些气体还表现出强烈的日夜周期变化。然而,Aurora准确地捕捉了这些极端和背景水平。


微信截图_20240605095722


纬度加权均方根误差(RMSE)显示,与CAMS相比,Aurora的表现更为出色,其中负值(蓝色)意味着Aurora的表现更佳。RMSE是在2022年6月至2022年11月期间计算的。Aurora在74%的目标上匹配或超越了CAMS的表现。


Aurora多功能性的一个典型例子是其能够利用来自哥白尼大气监测服务(CAMS)的数据预测空气污染水平。这是一个公认的难题,因为大气化学、天气模式和人类活动之间复杂的相互作用,以及CAMS数据的高度异质性。然而,Aurora通过其灵活的编码器-解码器架构和注意力机制,有效地处理并从这一具有挑战性的数据中学习,捕捉到了空气污染物的独特特征及其与气象变量的关系。这使得Aurora能够在全球范围内以0.4°的空间分辨率产生准确的五天空气污染预报,并在所有目标中的74%上超过了最先进的大气化学模拟,展示了其在解决广泛的环境预测问题方面的卓越适应性和潜力,即使在数据稀缺或高度复杂的情况下也能表现出色。


数据多样性和模型扩展显著提升了大气预报的准确性。这项研究的关键发现之一是,与在单一数据集上训练相比,在多样化数据集上进行预训练可以显著提高Aurora的性能。通过结合气候模拟、再分析产品和操作预报的数据,Aurora学习了更加稳健和通用的大气动力学表示。正是由于其庞大的规模和多样化的预训练数据语料库,Aurora能够在广泛的任务和分辨率上超越最先进的数值天气预报模型和专门的深度学习方法。

文章来源:https://www.microsoft.com/en-us/research/blog/introducing-aurora-the-first-large-scale-foundation-model-of-the-atmosphere/
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
热门职位
Maluuba
20000~40000/月
Cisco
25000~30000/月 深圳市
PilotAILabs
30000~60000/年 深圳市
写评论取消
回复取消