發(fā)布時間:2025-12-01 06:17:29 來源:素昧平生網(wǎng) 作者:知識


受影響網(wǎng)站出現(xiàn)的云服報錯信息
Cloudflare CTO戴恩·克內(nèi)切特(Dane Knecht)也在社交平臺發(fā)文,對故障深表歉意,靠性表示此次事故系公司支撐發(fā)現(xiàn)僵尸程序緩解功能的再敲某個服務中存在潛在缺陷,在進行常規(guī)配置變更后開始崩潰,警鐘進而引發(fā)網(wǎng)絡及其他服務的都斷事大范圍退化,而非遭受攻擊所致。時中
克內(nèi)切特表示,故詳此次故障及其造成的云服影響與恢復時長都是不可接受的。“我們已著手開展工作確保此類事件不再發(fā)生,靠性但深知確實造成了實際影響。再敲客戶給予我們的警鐘信任是最寶貴的財富,我們將不惜一切代價重新贏回這份信任”。都斷事
Cloudflare CTO戴恩·克內(nèi)切特推文截圖當?shù)貢r間11月19日一早,時中Cloudflare發(fā)布完整報告,故詳詳細描述了持續(xù)近5個小時的云服事件經(jīng)過:當?shù)貢r間18日上午11:28開始出現(xiàn)影響,并在客戶HTTP流量上首次觀察到錯誤;14:30主要影響解決,下游受影響服務開始觀察到錯誤減少,大多數(shù)服務開始正確運行;17:06所有下游服務重啟,所有操作完全恢復,影響結束。
Cloudflare表示,在故障發(fā)生時,公司“最初錯誤地懷疑所見癥狀是由超大規(guī)模DDoS攻擊引起”,之后正確識別出了核心問題——底層生成此文件的ClickHouse查詢行為發(fā)生了變化,文件包含大量重復的“特征”行,致使Bot Management模塊觸發(fā)錯誤,導致核心代理系統(tǒng)對任何依賴于該模塊的流量返回了HTTP 5xx錯誤碼,同時,當包含超過特征數(shù)量限制的錯誤文件傳播到服務器時,觸發(fā)了Cloudflare的系統(tǒng)恐慌。此外,這也影響了該公司客戶依賴核心代理的Workers KV和Access兩項服務。
隨后,Cloudflare通過停止生成和傳播錯誤的特征文件,并手動將一份已知良好的文件插入特征文件分發(fā)隊列來解決了問題,然后強制重啟核心代理,5xx錯誤碼數(shù)量此后恢復正常。

Cloudflare此次中斷事故時間線
Cloudflare表示,“鑒于Cloudflare在互聯(lián)網(wǎng)生態(tài)系統(tǒng)中的重要性,我們?nèi)魏蜗到y(tǒng)的任何中斷都是不可接受的”,對給客戶和整個互聯(lián)網(wǎng)帶來的影響深表歉意。
Cloudflare稱,公司已開始著手研究如何加強系統(tǒng)以防未來發(fā)生類似故障,包括強化Cloudflare生成的配置文件的攝入處理,采用與處理用戶生成輸入相同的方式;為功能啟用更多全局緊急停止開關;消除核心轉儲或其他錯誤報告耗盡系統(tǒng)資源的可能性;審查所有核心代理模塊中錯誤條件的故障模式等措施。
據(jù)外媒報道,此次事故發(fā)生前不到一個月,亞馬遜云服務也剛剛經(jīng)歷過導致多項網(wǎng)絡服務癱瘓的整日故障,隨后微軟Azure云服務及365辦公套件也曾出現(xiàn)全球性中斷。
而早在2024年7月,網(wǎng)絡安全公司CrowdStrike就曾因有缺陷的軟件更新引發(fā)大規(guī)模系統(tǒng)故障,造成航班停飛、金融服務受阻及醫(yī)院推遲手術等連鎖反應。
澎湃新聞記者 秦盛
相關文章