2020云巨頭宕機事件頻發,云技術面臨新的挑戰
分類:云服務資訊
編輯:新網小青年
瀏覽量:211
2021-01-14 16:17:41
疫情之下,萬物皆可“云”。上班族“云辦公”、學生黨“云上課”,各種在線教育、遠程辦公、云招聘、云看病等云服務需求得到集中爆發,企業數字化轉型進程被按下了加速鍵,企業上云勁頭十足,云計算產業得到了前所未有的發展契機。
目前,云計算已被很多企業采用,但是,在此過程中也出現了許多問題。僅2020年一年,全球主流云計算廠商曾發生數十起宕機事故。以下是2020年規模巨大的十大宕機事件,隨著這些問題的出現和解決,云計算技術正面臨著新的挑戰和機遇。
1、3月,微軟發生兩次大規模宕機
3月3日,微軟位于美國東部的數據中心發生了服務中斷,持續六小時,導致美國北部的客戶無法使用Azure云服務。
微軟稱,這次故障應歸咎于冷卻系統故障。發生故障的樓宇自動化控制導致氣流減少,隨后整個數據中心的溫度達到峰值,影響了網絡設備的性能,使得計算和存儲都無法繼續使用。
3月24日-26日,Azure Pipelines發生故障,這是DevOps團隊使用的持續交付服務,接下來的幾天,軟件開發管道遇到了嚴重的延遲,開發人員受到的影響特別大。
微軟證實,由于全球疫情爆發,需求激增,虛擬機容量受限使得設備重新映像的時間增加,導致可用代理的等待時間也隨之增加。
2、3月,Google多個云服務出現無法訪問
3月26日,Google多個云服務出現無法訪問的問題。Google用戶發Twitter稱,他們遇到了Google 500和502錯誤代碼——500代碼代表因內部錯誤導致請求失敗;502代碼則代表網關出現故障。
Google最終將這次故障歸咎于“基礎設施組件”問題。據Downdetector稱,美國東部沿海地區的Google客戶受到的影響最大。
3、4月,GitHub多次宕機
微軟旗下的源代碼存儲庫GitHub在4月底發生了多次宕機。
4月21日,多個GitHub服務出現訪問異常,持續了一個半小時。4月22日,服務再次出現中斷,持續時間至少兩小時。4月23日,多個GitHub服務也遇到了各種問題的影響,持續了近三小時。軟件工程師經常使用的API請求、Webhooks等服務被標注為 '已降級'。
官方沒有提供任何原因,也沒有公布恢復過程的信息。雖然GitHub網站上更新了微軟試圖修復各種故障的情況,但并沒有提供任何關于問題的細節,開發者們在Twitter上抨擊微軟缺乏透明度。
4、6月,IBM Cloud遭遇了重大宕機故障
6月9日,IBM Cloud 遭遇了重大宕機故障,平臺上托管的多項服務也因此中斷,其中就包括知名科技新聞聚合網站 Techmeme。本次宕機事件從下午2點30分左右開始,并快速蔓延至全球。
IBM Cloud頁面也在故障發生期間短暫關閉,然后在下午6:30之后報告稱一系列問題已經得以解決。
IBM網站解釋到,INM網絡運營團隊調整了路由策略,處理了第三方提供商引入的問題,這次故障也得以解決。
5、8月,Zoom發生了部分中斷
8月24日,Zoom發生了部分中斷,導致用戶無法訪問其離線會議和在線視頻會議,本次中斷持續了3小時。Zoom并未解釋造成中斷的原因,他只是在狀態頁面上說找到并解決了問題。
6、9月,Microsoft 365和Azure出現故障
9月29日,Microsoft Office 365辦公軟件和Azure云產品出現故障,導致部分用戶服務中斷數小時。
微軟表示,故障涉及Outlook電郵服務和Teams辦公協作工具的部分用戶,其中Teams具備聊天和視頻會議功能,在新冠疫情期間其用戶增長迅速。微軟表示,一些用戶無法登錄這些服務,但已經登錄上去的不受影響。
當天,Azure云計算用戶也遭遇了與Office365套件類似的問題。Azure是微軟的大規模云計算系統,許多企業都依靠其存儲和分析數據。
7、11月,亞馬遜云服務出現中斷
11月25日,亞馬遜云服務出現中斷,大量網站和服務受到影響。本次宕機持續約5小時。
AWS發布通知稱,處理流媒體數據的Kinesis服務出現問題,大量網站受到影響,錯誤率上升。并且,宕機還影響了它向狀態頁發布更新的能力。
據了解,此次宕機導致亞馬遜智能安全子公司Ring、Roku、軟件開發商Autodesk紐約大都會運輸署的地鐵網站,論壇出版集團旗下的《芝加哥論壇報》和《巴爾的摩太陽報》等一些公司或機構的服務受到了影響,網站頻頻出現錯誤。
8、12月,Google Cloud全球宕機
12月14日晚間,Google服務器又一次全球宕機。這是近5個月來第3次全球宕機。
Google旗下的YouTube、Gmail、Google Drive、Google Search等服務出現死機,用戶無法正常使用,全球多個國家及地區用戶均受到影響。
Google隨后發推文確認,由于內部存儲配額問題,Google身份驗證系統中斷。宕機45分后問題得以解決,現在所有服務都已恢復。
互聯網時代對系統的可靠性提出了更高的要求。為了妥善解決停機和計劃外的中斷問題,服務器托管提供商必須先了解此類事件的主要原因。除了人為的錯誤之外,其他主要停機原因還包括維護措施和生命周期策略不佳,以及數據中心選址,風險緩解措施不足等。
隨著云計算技術和應用的快速發展,云端存儲已經變得越來越方便了。可是,為了防止意外的發生,對重要數據進行備份還是非常重要的。除此之外,由于宕機事故無法杜絕,應該提前做好宕機應急方案,以將事故危害降到最低。同時,日常維護檢查也是必不可少的一項:http://www.xinnet.com/cs/cs.html
目前,云計算已被很多企業采用,但是,在此過程中也出現了許多問題。僅2020年一年,全球主流云計算廠商曾發生數十起宕機事故。以下是2020年規模巨大的十大宕機事件,隨著這些問題的出現和解決,云計算技術正面臨著新的挑戰和機遇。
1、3月,微軟發生兩次大規模宕機
3月3日,微軟位于美國東部的數據中心發生了服務中斷,持續六小時,導致美國北部的客戶無法使用Azure云服務。
微軟稱,這次故障應歸咎于冷卻系統故障。發生故障的樓宇自動化控制導致氣流減少,隨后整個數據中心的溫度達到峰值,影響了網絡設備的性能,使得計算和存儲都無法繼續使用。
3月24日-26日,Azure Pipelines發生故障,這是DevOps團隊使用的持續交付服務,接下來的幾天,軟件開發管道遇到了嚴重的延遲,開發人員受到的影響特別大。
微軟證實,由于全球疫情爆發,需求激增,虛擬機容量受限使得設備重新映像的時間增加,導致可用代理的等待時間也隨之增加。
2、3月,Google多個云服務出現無法訪問
3月26日,Google多個云服務出現無法訪問的問題。Google用戶發Twitter稱,他們遇到了Google 500和502錯誤代碼——500代碼代表因內部錯誤導致請求失敗;502代碼則代表網關出現故障。
Google最終將這次故障歸咎于“基礎設施組件”問題。據Downdetector稱,美國東部沿海地區的Google客戶受到的影響最大。
3、4月,GitHub多次宕機
微軟旗下的源代碼存儲庫GitHub在4月底發生了多次宕機。
4月21日,多個GitHub服務出現訪問異常,持續了一個半小時。4月22日,服務再次出現中斷,持續時間至少兩小時。4月23日,多個GitHub服務也遇到了各種問題的影響,持續了近三小時。軟件工程師經常使用的API請求、Webhooks等服務被標注為 '已降級'。
官方沒有提供任何原因,也沒有公布恢復過程的信息。雖然GitHub網站上更新了微軟試圖修復各種故障的情況,但并沒有提供任何關于問題的細節,開發者們在Twitter上抨擊微軟缺乏透明度。
4、6月,IBM Cloud遭遇了重大宕機故障
6月9日,IBM Cloud 遭遇了重大宕機故障,平臺上托管的多項服務也因此中斷,其中就包括知名科技新聞聚合網站 Techmeme。本次宕機事件從下午2點30分左右開始,并快速蔓延至全球。
IBM Cloud頁面也在故障發生期間短暫關閉,然后在下午6:30之后報告稱一系列問題已經得以解決。
IBM網站解釋到,INM網絡運營團隊調整了路由策略,處理了第三方提供商引入的問題,這次故障也得以解決。
5、8月,Zoom發生了部分中斷
8月24日,Zoom發生了部分中斷,導致用戶無法訪問其離線會議和在線視頻會議,本次中斷持續了3小時。Zoom并未解釋造成中斷的原因,他只是在狀態頁面上說找到并解決了問題。
6、9月,Microsoft 365和Azure出現故障
9月29日,Microsoft Office 365辦公軟件和Azure云產品出現故障,導致部分用戶服務中斷數小時。
微軟表示,故障涉及Outlook電郵服務和Teams辦公協作工具的部分用戶,其中Teams具備聊天和視頻會議功能,在新冠疫情期間其用戶增長迅速。微軟表示,一些用戶無法登錄這些服務,但已經登錄上去的不受影響。
當天,Azure云計算用戶也遭遇了與Office365套件類似的問題。Azure是微軟的大規模云計算系統,許多企業都依靠其存儲和分析數據。
7、11月,亞馬遜云服務出現中斷
11月25日,亞馬遜云服務出現中斷,大量網站和服務受到影響。本次宕機持續約5小時。
AWS發布通知稱,處理流媒體數據的Kinesis服務出現問題,大量網站受到影響,錯誤率上升。并且,宕機還影響了它向狀態頁發布更新的能力。
據了解,此次宕機導致亞馬遜智能安全子公司Ring、Roku、軟件開發商Autodesk紐約大都會運輸署的地鐵網站,論壇出版集團旗下的《芝加哥論壇報》和《巴爾的摩太陽報》等一些公司或機構的服務受到了影響,網站頻頻出現錯誤。
8、12月,Google Cloud全球宕機
12月14日晚間,Google服務器又一次全球宕機。這是近5個月來第3次全球宕機。
Google旗下的YouTube、Gmail、Google Drive、Google Search等服務出現死機,用戶無法正常使用,全球多個國家及地區用戶均受到影響。
Google隨后發推文確認,由于內部存儲配額問題,Google身份驗證系統中斷。宕機45分后問題得以解決,現在所有服務都已恢復。
互聯網時代對系統的可靠性提出了更高的要求。為了妥善解決停機和計劃外的中斷問題,服務器托管提供商必須先了解此類事件的主要原因。除了人為的錯誤之外,其他主要停機原因還包括維護措施和生命周期策略不佳,以及數據中心選址,風險緩解措施不足等。
隨著云計算技術和應用的快速發展,云端存儲已經變得越來越方便了。可是,為了防止意外的發生,對重要數據進行備份還是非常重要的。除此之外,由于宕機事故無法杜絕,應該提前做好宕機應急方案,以將事故危害降到最低。同時,日常維護檢查也是必不可少的一項:http://www.xinnet.com/cs/cs.html
聲明:免責聲明:本文內容由互聯網用戶自發貢獻自行上傳,本網站不擁有所有權,也不承認相關法律責任。如果您發現本社區中有涉嫌抄襲的內容,請發
送郵件至:operations@xinnet.com進行舉報,并提供相關證據,一經查實,本站將立刻刪除涉嫌侵權內容。本站原創內容未經允許不得轉載,或轉載時
需注明出處:新網idc知識百科