Cloudflare的一次長時間故障導致其許多服務癱瘓,包括最常用的客戶後臺儀表板和用於管理和讀取服務配置的相關應用編程接口(API)都無法使用,不少網站一度無法管理自己的業務(包括cnBeta……)。功能全部或部分受到影響的服務的完整列表包括Cloudflare儀表板、CloudflareAPI、Logpush、WARP/ZeroTrust設備態勢、StreamAPI、WorkersAPI和警報
Cloudflare表示:"這個問題會影響依賴於我們API基礎設施的所有服務,包括Zero Trust, WARP, Cloudflared, Waiting Room, Gateway, Stream, Magic WAN, API Shield, Pages, Workers。"
"使用Dashboard/Cloudflare API的客戶會受到影響,因為請求可能會失敗和/或顯示錯誤"。
客戶目前在嘗試登錄其賬戶時遇到問題,並看到'Code: 10000"身份驗證錯誤,並且在嘗試訪問 Cloudflare 控制面板時出現內部服務器錯誤。
Cloudflare 表示,服務問題不會影響通過 Cloudflare CDN 或 Cloudflare Edge 安全功能進行的緩存文件交付。
Cloudflare 儀表板故障截屏
儀表盤和 API 問題背後是數據中心停電
主要業務停運兩個小時後,該公司透露,持續的問題是由於多個數據中心停電造成的。
"Cloudflare 正在評估斷電對數據中心的影響,同時服務也出現故障。我們將定期提供更新,直到問題得到解決,在我們努力緩解問題的過程中,感謝您的耐心等待。"
這是 Cloudflare 自本周以來遭遇的第二次大面積故障,第一次是在 10 月 30 日星期一,包括 Cloudflare 站點和服務(Access, CDN Cache Purge, Dashboard, Images, Pages, Turnstile, Waiting Room, WARP, Workers KV)在內的多個產品癱瘓。
正如該公司在兩天後發佈的事後報告中解釋的那樣,周一的故障是由於用於部署新的 Workers KV 版本的工具配置錯誤造成的。
Cloudflare 的 Matt Silverlock 和 Kris Evans 說:"客戶和 Cloudflare 團隊都使用 Workers KV 來管理配置數據、路由查詢、靜態資產捆綁、身份驗證令牌和其他需要低延遲訪問的數據。在此次事件中,由於 KV 使用的新部署工具中的一個錯誤,KV 返回它認為有效的 HTTP 401(未授權)狀態代碼,而不是請求的鍵值對。"
美國東部時間 11 月 02 日 20:12 更新:Cloudflare 發言人透露,此次持續中斷的根本原因是發電機故障導致的區域性電力問題,導致設施脫機。
"我們在俄勒岡州的多個冗餘數據中心運行,為 Cloudflare 的控制平面(儀表盤、日志等)提供電力。一次區域性電力問題影響該地區的多個設施。這些設施一夜之間無法發電。今天上午,多臺發電機發生故障,導致這些設施完全斷電,"發言人說。
"我們已將故障轉移到災難恢復設施,大部分服務已經恢復。這次數據中心故障影響 Cloudflare 的儀表盤和 API,但並沒有影響通過我們全球網絡的流量。我們正在與我們的數據中心供應商合作,調查區域性停電和發電機故障的根本原因。我們預計將根據解到的情況發佈多篇博客,並在博客上線後與您分享。