每日最新頭條.有趣資訊

阿里雲宕機,“多雲”部署能否避免此類損失?

阿里雲又宕機了,這一次發生在午夜。

3月2日23時55分左右,阿里雲開始出現大規模故障,位於華北地區的多家互聯網公司的IT運維人員發現多個APP和網站開始陷入卡頓。隨後一批程序員趕往公司加班。58高級架構師沈劍在針對此次宕機的回憶文章中稱,這場事故持續了三個小時左右,事後觀察了兩個小時。

3月3日早間,阿里雲發布公告,開始全面排查。截至目前披露的結果是,華北2地域可用區C部分的ECS伺服器(雲伺服器)等實例出現IO HANG(IO不響應),經緊急排查處理後已全部恢復。阿里雲方面向記者證實了這一結果,並表示其他區域未發現此類情況。

針對故障,阿里雲表示,將根據SLA協議(服務合約),盡快處理賠償事宜。但阿里雲並未公開詳細的賠償細節。而根據阿里雲開發者論壇上的網友說法,賠償通常是按照故障時間的100倍進行的,而方案則根據包年包月預付費模式和按量付費模式有所不同,但總額不超過支付的單台雲伺服器費用總額。

這是一場發生在周末的宕機時間,因微博的傳播而備受關注。第三方機構Forrester分析師戴鯤告訴記者,華北2地域是阿里雲最早開通服務的華北地域之一,而ECS伺服器又是阿里雲最為核心的IaaS(基礎設施即服務)之一,影響程度應當是相對較大的。

2018年6月,阿里雲曾出現技術故障。儘管官方最終給出的故障時間僅為30分鐘,而恢復時間需要1小時。但阿里雲最終仍將其定義為S1級別事故,即核心業務重要功能不可用,影響了部分用戶,造成了一定損失。

2019年1月,第三方機構IDC報告數據顯示,2018年上半年中國公有雲廠商中,阿里雲以43%的市場佔有率排名第一,相當於第二名至第九名的總和;騰訊排名第二,市場佔有率為11.2%。

99.99%的安全性有多可靠?

事實上,宕機事件頻繁發生。僅2018年一年,全球主流雲計算廠商曾發生數十起宕機事故。對於宕機的原因,亞馬遜AWS稱因數據中心硬體問題,微軟Azure數據中心則因高溫和打雷,騰訊雲因運營和硬碟故障,谷歌則因自動化失效。

但與此同時,多家雲服務商仍在承諾99.99%的安全可靠性。對此,有技術專家表示,這一數字是經過驗證的,而且通過部署反饋,故障率的確在0.01%以下。並且,一旦出現故障,雲服務商也都有相應的容災方案,可以及時解決問題。

沈劍在上述文章中表示,更換其他方案,也會遇到其他的問題,而自建機房,更是沒有信心比阿里雲更好。目前大多數公司仍在業務階段,考慮投入產出比,所以多機房模式並不適合所有公司。

如何避免宕機事故造成重大損失?有業內人士稱,需要將重要業務分別放在不同的“籃子”裡,也就是選擇多個供應商,進行“多雲”部署。負責運營微軟雲服務落地的世紀互聯藍雲首席執行官柯文達表示,真正的企業級市場中,用戶一定是希望“多雲”部署。

不過,也有行業人士認為,“多雲”部署,會帶來管理、開發、人員培訓的複雜性,也可以選擇多區域部署的方式。

市場對雲計算的需求仍在增長

雲計算取代舊有IT部署的趨勢已不可逆。Gartner數據顯示,雲計算佔全球總IT支出的規模正在不斷增加。從2010年的1.99%,上升到2018年的8%,而未來幾年向雲轉移將會直接或間接影響超過1兆美元的IT支出。

這一切變化發生在過去十年中。十多年前,無論是跨國巨頭,還是創業公司,部署IT架構的思路都是相同的,即購買伺服器,部署一套系統,支撐公司業務和戰略。此時,IT只是一項運營成本。

但現在這些企業,尤其是初創公司通過租用雲服務的方式,就能獲取IT能力。

在中國市場,阿里雲就提供這種服務。與此同時,騰訊、百度、電信運營商等紛紛進入這一市場。2015年中國雲計算市場爆發後,多家公司曾以年增長率超過三位數的速度增長。不僅如此,從2015年下半年開始,雲計算服務商已經將客戶瞄向大型企業和政府機關。

從整體來看,雲計算取代舊有IT部署模式已成為產業共識,尤其是按需付費的公有雲更是對IT成本最有效的節省。Gartner研究報告預計,2017年到2020年公有雲行業增速將維持在15%以上,2020年將達到3834億美元的規模,而雲代替的總規模也將達到2160億美元。

一位行業分析師告訴記者,對於如電信、金融等一些關鍵領域的巨頭公司,這類宕機事件仍將是影響其快速轉向雲計算隊伍的阻礙,他們可能拿出一些非核心業務在雲計算上嘗試,但很難馬上全部轉向雲計算。

新京報記者 梁辰 編輯 趙澤 劉曉陽 校對 范錦春

獲得更多的PTT最新消息
按讚加入粉絲團