操作人員一手抖,數百萬美元瞬間蒸發,這件魔幻的事,最近發生在美國。1月11日,美國民航史上發生可以載入史冊的一幕:因為NOTAM系統故障,全美航班遭遇大規模停飛。據ABC采訪的知情人士稱,這次中斷所造成的損失可能會高達數百萬美元。但誰能想到,背後原因,竟然是因為外包程序員手抖一下。
系統“故障”,全美航班停飛
1月11日周三,美國東部時間凌晨2點左右,飛行任務通知系統NOTAM(Notice to Air Mission Systems)突然下線。
美國聯邦航空管理局(FAA)不得發出聲明,要求航空公司“停飛全美所有航班”。
與此同時,敦促相關工作人員盡快恢復系統並使其重新上線。
經過通宵排查,FAA在美東時間上午8點50表示,目前美國各地的航班正在逐步恢復,停飛已被解除。
雖然系統故障的時間相對較短,期間正在飛行或降落的航班也沒有受到影響。
但是,航班全部停飛所引發的,是一場全國性的空中交通擁堵,而且至少需要一天時間才能疏通。
根據航班跟蹤網站FlightAware的數據,由於系統崩潰,到傍晚時分,東海岸有超過1,300架航班被取消,9,000架航班延誤,數千名旅客被迫滯留在機場。
毫不誇張地說,這是美國自2001年9月11日以來,首次全國范圍內的航班停飛。
然而,經過FAA長達一周的調查之後所發現的原因,卻讓人有些哭笑不得——
有人不小心刪除一些重要文件。
這個人是誰呢?
註意看報告中對於主語的描述——“contract personnel”。
這……看來全世界出事,都是臨時工背鍋呀。
美國聯邦航空管理局(FAA)對上周飛行任務通知(NOTAM)系統中斷的初步審查確定,合同工在糾正實時主數據庫和備份數據庫之間的同步工作時無意中刪除文件。到目前為止,並沒有發現網絡攻擊或惡意的證據。FAA將繼續調查與此次故障有關的情況。現在,FAA已經對系統進行必要的修復,並采取措施使NOTAM系統更穩健。
總之,這事兒是鬧大。現在這次由NOTAM崩潰導致的大型停飛事故,已經永遠記錄在NOTAM的維基百科裡。
不是蓄意的,隻是手抖
但是仔細看上面那份聲明,我們能發現不少“華點”——
系統中的哪些文件被刪除?是否造成某些數據永久的丟失?對於運行系統如此重要的文件,為何可以這麼輕易地被刪除?涉事合同工是如何處理的?
The Register已經向美國聯邦航空局提出上述問題,但美國聯邦航空局隻以官方聲明回應提問,並沒有回答任何具體的問題。
出這麼大事,相關部門卻語焉不詳,當然引發極大的輿論風波。
系統故障後,美國的立法者對美國聯邦航空局發表嚴厲的言論,120名國會代表聯名寫信,要求航空局給出明確解釋。
這些代表們向交通部長Pete Buttigieg告狀說,過去一年內,航班延誤和大規模取消的情況一直有增無減,並且很多問題明明就在美國聯邦航空局的控制范圍內。
他們列出滿滿兩頁的問題清單(共14個),要求Pete Buttigieg及其團隊必須在1月25日前給出答復。
1. NOTAM系統中斷的主要原因是什麼?這個主要原因是什麼?
2. 系統故障是什麼時候發現的?系統錯誤持續多長時間?
3. 在發生此類故障的情況下,FAA是否采取任何預防措施,為NOTAM系統提供彈性和冗餘?
4. 如果是這樣,為什麼這些努力失敗?如果不是,請解釋您的系統為什麼缺乏冗餘,以及為何沒有進行必要的分析,以確定此類冗餘。
5. 在發現故障之前,系統是否提供不可靠的信息?如果是這樣,請提供不可靠或不正確數據輸出實例的列表。
6. 在獲悉系統中斷後,美國聯邦航空局是否進行安全評估以確定潛在的安全影響,以幫助在主要和次要系統中斷期間為決策提供信息?如果有,請提供此類活動的結果評估。如果沒有,請提供FAA決策的依據。
7. 在得知NOTAM系統中斷後,FAA采取哪些行動來通知所有受影響的航空業利益相關者?這些流程是否有效且高效地運作?
8. FAA在過去兩年中是否對NOTAM系統進行過安全評估?如果是,請提供每次安全評估的日期和結果。
9. 據報道,美國聯邦航空局在東部時間上午9點左右開始恢復地面運營。此時,美國聯邦航空局是否制定臨時解決方案,或者根本原因是否已完全解決?如果FAA實施臨時解決方案,請提供該計劃的副本。
10. 影響范圍有多大?有多少商業航班和乘客直接受到航班延誤和取消的影響,有多少航班和乘客因連鎖反應相關的間接問題而延誤?此外,請提供因中斷造成的延誤給商業航空公司和乘客帶來的成本損失。
NOTAM又是個啥?
1947年,負責協調國際航空旅行的聯合國機構“國際民用航空公約”同意開始通過電信手段發佈NOTAM,以協助保證飛機安全。
最初,系統被稱為“飛行員通知”(Notices to Airmen),仿照的是提醒船長註意海上危險的海員通知(Notice to Mariners)。
目的也是為提醒飛機駕駛員在航線上或特定地點的任何危險,比如大雪、火山灰或機場附近的鳥類等,並且還會提供關於關閉的跑道和臨時空中管制的信息。
2021年,系統更名為“飛行任務通知”(Notices to Air Missions, NOTAM)。
總的來說,NOTAM的發佈有多種原因,例如:
- 危險,包括航空表演、跳傘、放風箏、激光、火箭發射等
- 國傢元首等重要人物的航班(有時涉及臨時航班管制,TFR)
- 跑道關閉
- 軍事演習導致的空域管制
- 高大障礙物上的燈不亮
- 在機場附近臨時放置的障礙物(例如起重機)
- 成群的鳥類通過空域(BIRDTAM)
- 有關雪、冰和積水的跑道/停機坪狀態的通知(SNOWTAM)
- 火山灰或其他粉塵污染的操作上的重大變化通知(ASHTAM)
此外,為使溝通更有效率,NOTAM采用一種“縮寫”的形式進行記錄,通常使用大寫字母發佈。
下圖就是倫敦希思羅機場的一份NOTAM報告。
在起飛之前,飛行員需要在紙上或iPad上查看NOTAM的信息。
而對於那些長途國際航班, NOTAM所提供的信息,甚至可以多達到200頁。
看得出來,如此冗雜的信息,很容易會成為事故的潛在因素。
2017年7月,一架加拿大航空公司的飛機在舊金山機場的錯誤跑道上降落,在幾秒鐘內與其他四架飛機相撞。
該機場兩條跑道中的一條跑道關閉的通知,已經在飛行前的NOTAM中被標記出來——在27頁的簡報中的第8頁——但被飛行員忽略。
對此,美國國傢運輸安全委員會主席Robert Sumwalt在2018年的事故聽證會上怒斥道:“NOTAM就是一堆垃圾,沒有人註意到。”
的確,關鍵信息寫在27頁簡報中的第8頁上,確實有些難為飛行員。
以至於三年後,一項全球運動被發起,旨在通過對具有百年歷史的NOTAM系統進行改革,通過減少信息過載來提高航空安全。
以不可預知的順序顯示,並以幾十年前構思的電報代碼書寫,大寫的通知充滿拜占庭式的縮寫……面對這份文件,即使是經驗豐富的飛行員,也難免在過度勞累時出問題,尤其是對於母語非英語的人。
這份警告裡說,香港國際機場在5月下旬將有不到兩個小時的導航設備不可用,你能看出來嗎?
在美國,調查人員多年來一直警告說,數據的洪流可能會讓飛行員不知所措,或者忽視重要信息。
飛行運營咨詢公司OPSGROUP的創始人Mark Zee表示,你可以想象這對機組人員來說是多麼令人沮喪:
“這裡有200頁垃圾。其中一份NOTAM可能會結束你的職業生涯,或者將整個飛機和所有乘客置於危險之中,而且你必須在200頁中主動找到它。”