每日最新頭條.有趣資訊

雲計算到底怎麽用?

雲計算最近的熱鬧不少。

8月5日,一家創業公司“前沿數控”發文,稱其在騰訊雲上數據全部丟失。之後騰訊雲對此回應稱,該事故是因所在物理硬碟韌體版本bug導致的靜默錯誤且運維人員存在不規範操作所導致,並表示了道歉與賠償。

至此,在一年多的時間裡,微軟、AWS、阿里雲、騰訊雲等主要雲計算服務商相繼出現問題,這也讓外界產生疑惑:雲計算怎麽了?

近些年,企業上雲已成趨勢,而雲一旦出問題,很可能影響頗大;然而就像天底下沒有不生病的人一樣,雲計算也自然也不可能百分之百完全不出問題。這次的騰訊雲事件,剛好可以用來聊聊這個話題,讓我們透視雲計算平台與企業如何應對可能存在的問題。

沒有絕對不出問題的雲計算

但我們或許可以借此討論這樣一個問題:雲計算平台不出錯的理想情況,到底是否可能?

答案當然是否定的,任何雲計算平台都有發生事故的可能。雲計算本身是一種本地存儲與運算的替代方案,所以本地計算可能出現的軟硬體問題,也將映射到雲計算體系中。

當然,隨著雲計算技術的不斷進步以及產業服務能力增強,今天我們看到雲計算應對風險的技術解決能力、容災能力、應急冗余能力都在提高。

但同時也應該看到,雲計算的另一面,是體系複雜化、碎片化的業務需求,更加複雜的雲計算應用體系以及雲計算+AI、雲計算+IoT等新業務種類,導致出現風險的場景更多。比如去年英國一個移動應用企業發生了數據崩潰,原因在於企業員工違規收取了郵件,最終導致雲存儲數據被大規模劫持。

不過從另外一個角度來看,雲廠商提供給用戶的真正有價值的服務並不是一個一定不會出問題的服務,而是讓企業可以低成本快速的搭建一個服務冗余、一定容災的架構的能力。從騰訊雲的案例中我們可以看到,雲計算的問題可能很複雜,而平台的處理能力是解決問題的第一方案。

出現了問題,雲計算平台如何應對?

讓我們回顧一下騰訊雲這次事件中,數據丟失到底因何發生:

根據騰訊雲方面的技術複盤,該故障緣起於因磁盤靜默錯誤導致的單副本數據錯誤,再加上數據遷移過程中的兩次不規範的操作,導致雲盤的三副本安全機制失效,並最終導致客戶數據完整性受損。具體原因是,是因為運維人員在收到倉庫太空使用率過高警告後,準備發起搬遷擴容。在搬遷國產中,為了加快速度,手動關閉了遷移過程中的數據校驗。而在搬遷完成後,運維人員將出事故雲盤訪問切至新倉庫,同時為了釋放太空,對原倉庫中的源數據發起了回收操作,之後發現部分雲盤出現IO異常。

本次事故起源自因磁盤靜默錯誤導致的單副本數據錯誤,再由於數據遷移過程中的不規範操作,導致異常數據擴散至三副本,進而導致客戶數據完整性受損。

騰訊雲已經正式道歉,並從技術角度坦誠了相關問題的存在。

由於雲計算事故的問題,往往來自複合型問題、細節問題。而往往平台諱莫如深,甚至想要撇清責任,是導致事件複雜化的直接原因。而騰訊雲此次的坦誠方案,在業界還是收獲了一定的肯定

而通過騰訊雲的事件,我們可以看到真正能夠有效降低雲計算故障的方法,是在出事前進行乾預。比如說:

1、搭建應急預案,不斷更新容災技術與容災機制,可以在出現問題時快速、低成本搭建應急架構。這是雲計算平台應對可能事故的核心,而容災機制與技術的雙重保障,也是雲服務品牌的核心競爭力。

2、規範化管理流程,尤其涉及數據問題時的人工操作流量。騰訊雲事件中可以看出,人為不規範操作是造成很多重大損失的起因。而嚴格的流程化和去人工可能是較好的解決方案。

保障數據,企業用戶也需配合

雲計算平台自然也不是萬能的。對於用戶來說,選擇合理的服務體系、積極做好兀余和備份工作,是進一步降低風險的舉措。

另一方面,雲計算服務中還有一項功能,叫做雲盤快照。也就是企業可以定期來複製備份自己的數據,作為應對可能性事故的備案。而恰好騰訊雲還是少數定期提供免費快照功能的雲平台,為避免企業數據丟失,還是應該積極使用類似備份功能,保證自身數據的安全存放。

同時,對於核心數據來說,本地存放與雲存儲兼顧,是公認的更良性策略。

目前,出於市場業務細分化的需要,所有雲計算平台都在提供更細節化、碎片化的服務選項。但很多時候企業並不能為了節約成本而購買單一服務,而是需要設定符合自身發展需求的雲計算策略,並做好重要數據本地備份。

畢竟,狡兔三窟總歸不是錯誤。

合理用雲,前提是正確認識雲

綜上所述,我們可以發現,為了解決類似問題,需要雲計算平台、企業客戶,包括行業監管、法規定製等方向的共同努力。我們可以從以下幾個方面,看到未來化解類似矛盾的可能:

1、技術層面,更加簡便優質的容災備份服務顯然是主流。而在今天快速迭代的雲計算體系中,通過技術保障進一步加強企業數據保障並不是奢望。而更加扎實的平台管理能力,和快速調查事故原因的能力與執行規則,也是平台企業未來需要提供的用戶價值。

2、權責分明的服務關係。類似案件中,平台故障當然是主因。但企業事故也可能最終導致數據危險。

因此,平台方向企業方提供明確的風險提示,並建議做好關鍵數據備份;企業方購買符合自身發展需求,較為合理的雲計算業務體系,都是避免最終矛盾的解決方案。另外很多雲計算業務,其實都來自企業應用層面的問題,那麽責權如何進一步劃分,也是應該解決的問題。

平台與用戶雙方,能夠達成策略性預見,給予對方足夠的尊重,並一切有規可循,才是類似問題的最終解決辦法。

一棍子打死雲計算,或者把雲計算捧殺到萬能的地步,事實上都是毫無益處的。

獲得更多的PTT最新消息
按讚加入粉絲團