2020云巨頭宕機事件頻發，云技術面臨新的挑戰

分類：云服務資訊編輯：新網小青年瀏覽量：211

2021-01-14 16:17:41

疫情之下，萬物皆可“云”。上班族“云辦公”、學生黨“云上課”，各種在線教育、遠程辦公、云招聘、云看病等云服務需求得到集中爆發，企業數字化轉型進程被按下了加速鍵，企業上云勁頭十足，云計算產業得到了前所未有的發展契機。
目前，云計算已被很多企業采用，但是，在此過程中也出現了許多問題。僅2020年一年，全球主流云計算廠商曾發生數十起宕機事故。以下是2020年規模巨大的十大宕機事件，隨著這些問題的出現和解決，云計算技術正面臨著新的挑戰和機遇。
1、3月，微軟發生兩次大規模宕機
3月3日，微軟位于美國東部的數據中心發生了服務中斷，持續六小時，導致美國北部的客戶無法使用Azure云服務。
微軟稱，這次故障應歸咎于冷卻系統故障。發生故障的樓宇自動化控制導致氣流減少，隨后整個數據中心的溫度達到峰值，影響了網絡設備的性能，使得計算和存儲都無法繼續使用。
3月24日-26日，Azure Pipelines發生故障，這是DevOps團隊使用的持續交付服務，接下來的幾天，軟件開發管道遇到了嚴重的延遲，開發人員受到的影響特別大。
微軟證實，由于全球疫情爆發，需求激增，虛擬機容量受限使得設備重新映像的時間增加，導致可用代理的等待時間也隨之增加。
2、3月，Google多個云服務出現無法訪問
3月26日，Google多個云服務出現無法訪問的問題。Google用戶發Twitter稱，他們遇到了Google 500和502錯誤代碼——500代碼代表因內部錯誤導致請求失敗；502代碼則代表網關出現故障。
Google最終將這次故障歸咎于“基礎設施組件”問題。據Downdetector稱，美國東部沿海地區的Google客戶受到的影響最大。
3、4月，GitHub多次宕機
微軟旗下的源代碼存儲庫GitHub在4月底發生了多次宕機。
4月21日，多個GitHub服務出現訪問異常，持續了一個半小時。4月22日，服務再次出現中斷，持續時間至少兩小時。4月23日，多個GitHub服務也遇到了各種問題的影響，持續了近三小時。軟件工程師經常使用的API請求、Webhooks等服務被標注為 '已降級'。
官方沒有提供任何原因，也沒有公布恢復過程的信息。雖然GitHub網站上更新了微軟試圖修復各種故障的情況，但并沒有提供任何關于問題的細節，開發者們在Twitter上抨擊微軟缺乏透明度。
4、6月，IBM Cloud遭遇了重大宕機故障
6月9日，IBM Cloud 遭遇了重大宕機故障，平臺上托管的多項服務也因此中斷，其中就包括知名科技新聞聚合網站 Techmeme。本次宕機事件從下午2點30分左右開始，并快速蔓延至全球。
IBM Cloud頁面也在故障發生期間短暫關閉，然后在下午6:30之后報告稱一系列問題已經得以解決。
IBM網站解釋到，INM網絡運營團隊調整了路由策略，處理了第三方提供商引入的問題，這次故障也得以解決。
5、8月，Zoom發生了部分中斷
8月24日，Zoom發生了部分中斷，導致用戶無法訪問其離線會議和在線視頻會議，本次中斷持續了3小時。Zoom并未解釋造成中斷的原因，他只是在狀態頁面上說找到并解決了問題。
6、9月，Microsoft 365和Azure出現故障
9月29日，Microsoft Office 365辦公軟件和Azure云產品出現故障，導致部分用戶服務中斷數小時。
微軟表示，故障涉及Outlook電郵服務和Teams辦公協作工具的部分用戶，其中Teams具備聊天和視頻會議功能，在新冠疫情期間其用戶增長迅速。微軟表示，一些用戶無法登錄這些服務，但已經登錄上去的不受影響。
當天，Azure云計算用戶也遭遇了與Office365套件類似的問題。Azure是微軟的大規模云計算系統，許多企業都依靠其存儲和分析數據。
7、11月，亞馬遜云服務出現中斷
11月25日，亞馬遜云服務出現中斷，大量網站和服務受到影響。本次宕機持續約5小時。
AWS發布通知稱，處理流媒體數據的Kinesis服務出現問題，大量網站受到影響，錯誤率上升。并且，宕機還影響了它向狀態頁發布更新的能力。
據了解，此次宕機導致亞馬遜智能安全子公司Ring、Roku、軟件開發商Autodesk紐約大都會運輸署的地鐵網站，論壇出版集團旗下的《芝加哥論壇報》和《巴爾的摩太陽報》等一些公司或機構的服務受到了影響，網站頻頻出現錯誤。
8、12月，Google Cloud全球宕機
12月14日晚間，Google服務器又一次全球宕機。這是近5個月來第3次全球宕機。
Google旗下的YouTube、Gmail、Google Drive、Google Search等服務出現死機，用戶無法正常使用，全球多個國家及地區用戶均受到影響。
Google隨后發推文確認，由于內部存儲配額問題，Google身份驗證系統中斷。宕機45分后問題得以解決，現在所有服務都已恢復。

互聯網時代對系統的可靠性提出了更高的要求。為了妥善解決停機和計劃外的中斷問題，服務器托管提供商必須先了解此類事件的主要原因。除了人為的錯誤之外，其他主要停機原因還包括維護措施和生命周期策略不佳，以及數據中心選址，風險緩解措施不足等。
隨著云計算技術和應用的快速發展，云端存儲已經變得越來越方便了。可是，為了防止意外的發生，對重要數據進行備份還是非常重要的。除此之外，由于宕機事故無法杜絕，應該提前做好宕機應急方案，以將事故危害降到最低。同時，日常維護檢查也是必不可少的一項：http://www.xinnet .com/cs/cs.html

聲明：免責聲明：本文內容由互聯網用戶自發貢獻自行上傳，本網站不擁有所有權，也不承認相關法律責任。如果您發現本社區中有涉嫌抄襲的內容，請發

送郵件至：operations@xinnet.com進行舉報，并提供相關證據，一經查實，本站將立刻刪除涉嫌侵權內容。本站原創內容未經允許不得轉載，或轉載時

需注明出處：新網idc知識百科