機器學習模型正在接管天氣預報領域,從快速的"這場雨會持續多久"到10天的展望,一直到世紀級別的預測。這項技術對氣候科學傢、應用程序和地方新聞臺越來越重要,但實際上它並不比你我更"解"天氣。
幾十年來,氣象學和天氣預報在很大程度上都是通過將觀測數據與精心調整的物理模型和方程相匹配來定義的。現在依然如此--沒有觀測就沒有科學--但龐大的數據檔案已經使強大的人工智能模型能夠覆蓋你所關心的任何時間尺度。Google希望從現在到永遠主宰這一領域。
在較短的時間尺度上,我們有即時預報,通常是在"我需要帶雨傘嗎?"這個問題上進行咨詢。DeepMind的"即時預報"模型可以解決這個問題,它基本上是把降水地圖看成是一連串的圖像,並試圖預測這些圖像中的形狀將如何演變和變化。
通過研究無數小時的多普勒雷達,該模型可以非常準確地預測接下來會發生什麼,即使在冷鋒帶來降雪或凍雨等相當復雜的情況下也是如此(正如中國研究人員在Google研究成果的基礎上所展示的那樣:https://www.nature.com/articles/s41586-023-06184-4#Abs1)。
這個模型就是一個例子,說明當一個系統對天氣如何發生並不解時,它能做出多麼準確的天氣預測。氣象學傢可以告訴你,當這種氣候現象與另一種氣候現象發生沖突時,你會遇到大霧、冰雹或濕熱天氣,因為這是物理學告訴他們的。人工智能模型對物理學一無所知--純粹基於數據,它隻是對接下來會發生什麼做出統計猜測。就像 ChatGPT 其實並不"知道"自己在說什麼一樣,天氣模型也不"知道"自己在預測什麼。
圖片來源:Google DeepMind
對於那些認為必須要有強大的理論框架才能做出準確預測的人來說,這可能會讓他們感到驚訝,事實上,科學傢們對於盲目采用一個連一滴雨和一縷陽光都不知道的系統仍心存疑慮。盡管如此,這些結果還是令人印象深刻的,而且在"我去商店的路上會不會下雨"這樣的低風險問題上,它已經足夠出色。
Google的研究人員最近還展示一個新的、時間稍長的模型,名為 MetNet-3,可以預測未來 24 小時內的天氣。正如你可能猜到的那樣,這個模型引入更大范圍的數據,比如全縣或全州的氣象站,並在更大范圍內進行預測。這適用於"暴風雨是會越過山脈還是會消散"之類的情況。解明早的風速或熱量是否可能進入危險區域,對於規劃應急服務和部署其他資源至關重要。
今天,"中程"尺度(即未來 7-10 天)天氣預測領域又有新進展。Google DeepMind 的研究人員在《科學》雜志上發表一篇文章,介紹 GraphCast,"它能比行業黃金標準天氣模擬系統更準確、更快速地提前 10 天預測天氣狀況"。
GraphCast 不僅在時間上,而且在尺寸上都進行放大,以 0.25 度的經/緯度分辨率覆蓋整個地球,或在赤道上約為 28×28 千米。這意味著要預測地球周圍 100 多萬個點的天氣情況,當然,其中有些點比其他點更引人關註,但關鍵是要建立一個全球系統,準確預測未來一周左右的主要天氣模式。
作者寫道:"我們的方法不應被視為傳統天氣預報方法的替代品,而是證明 MLWP 能夠應對現實世界預報問題的挑戰,並有潛力補充和改進當前的最佳方法"。
它不會告訴你你傢附近會下雨還是隻在隔壁鎮子下雨,但它對更大規模的天氣事件非常有用,比如大風暴和其他危險的異常現象。這些事件發生在數千公裡范圍內的系統中,這意味著 GraphCast 可以相當詳細地模擬它們,並能預測它們的運動和質量,而且隻需使用一個Google計算單元,耗時不到一分鐘。
效率是一個重要方面。"數值天氣預報",即傳統的基於物理學的模型,計算成本高昂。當然,它們的預測速度可以超過天氣發生的速度,否則它們就毫無價值--但你必須讓超級計算機來做這項工作,即便如此,要做出有細微變化的預測也需要一段時間。
比如說,不確定在氣旋來襲之前,大氣中的河流強度會增加還是減少。你可能想做幾個不同強度的預報,幾個不同強度的預報,一個保持不變的預報。同樣,在遇到風暴、洪水和野火等情況時,這一點也非常重要。提前一天知道必須撤離某個地區,可以挽救生命。
當需要考慮大量不同的變量時,這些工作可能會變得非常復雜,有時必須運行模型幾十次,甚至上百次,才能真正解事情會如何發展。如果這些預測在超級計算機集群上每次都要花費一個小時,那就有問題;如果在擁有數千臺電腦的臺式機上每次隻需一分鐘,那就完全沒有問題--事實上,你可能會開始考慮預測更多更精細的變化!
這就是艾倫人工智能研究所(AI2)的氣候模擬項目背後的理念。如果你想預測的不僅僅是下周可能出現的 10 個不同選項,而是下個世紀可能出現的上千個選項,你會怎麼做?
這種氣候科學對各種長期規劃都很重要,但由於需要操作的變量數量巨大,預測的時間跨度長達數十年,可以肯定所需的計算能力也同樣巨大。因此,AI2 的團隊正在與世界各地的科學傢合作,利用機器學習加速和改進這些預測,從而改進世紀尺度的"預測"。
ClimSim 模型的工作原理與上文討論的模型類似:它們不是將數字輸入基於物理的人工調整模型,而是將所有數據視為一個相互關聯的矢量場。當一個數字上升時,另一個數字也會可靠地上升一半,而第三個數字則會下降四分之一,即使機器學習模型不知道這些關系與(比如)大氣中的二氧化碳、地表溫度和海洋生物量有關,這些關系也會被嵌入機器學習模型的記憶中。
項目負責人說,他們建立的模型非常精確,而計算成本卻低得多。但他也承認,科學傢們雖然保持著開放的心態,但在工作中(這也是很自然的)也會持懷疑態度。如果你想親自看看,代碼就在這裡:https://github.com/leap-stc/ClimSim/tree/main
由於時間尺度如此之長,氣候變化如此之快,很難為長期預測找到合適的基本事實,但這些預測的價值卻與日俱增。正如 GraphCast 的研究人員所指出的,這並不是對其他方法的替代,而是一種補充。毫無疑問,氣候科學傢們會希望得到他們所能得到的一切工具。