代碼英雄之數據爆炸：身陷數據洪流，企業應如何賦能而生

出品 | CSDN（ID：CSDNnews） | 紅帽原創音頻

這是代碼英雄第四期，數據爆炸。前三期（第一期：代碼英雄之作業系統之戰|第二期：代碼英雄之容器德比|第三期：代碼英雄之雲間戰爭）我們溯源了開源作業系統的崛起、容器技術的發展以及雲端二十年的“戰爭史”，與萬千開發者共歷科技浪潮的波瀾浮沉。作為開源系列的最後一期，在本文中，我們將聚焦數據大爆炸，探討時代賦能的數據力量。伴隨著5G商用、AI以及物聯網的逐步落地，各行各業在擁抱數字化轉型的過程中均感受到了時代給業務模式帶來的衝擊，也不可避免地面臨著信息過載的沉重壓力。

根據美國權威IDC以及EMC公司的調查，2017年全世界的數據總量是16ZB，而到了2020年，全世界的數據總量將達到44ZB，相當於現在的四萬五千個亞馬遜公司！IP流量將在未來五年內翻兩番，深陷數據洪流之中的企業唯有第一時間將數據的價值發揮出來、並將其留存進行分析後，其背後的價值才能夠真正顯現。那麽，我們究竟該如何處理這麽龐大的數據量？又該如何有效利用這些收集到的數據？......在指數級增長的數據面前，未來的大型雲數據中心還將面臨更大的挑戰。

數據大爆炸

如果把從人類出現到2003年創建的所有數據匯聚起來，那麽可以獲得大約500萬GB的數據。但是僅昨天一天，全球創建的數據量就遠不止於此：人們在一分鐘內就會大約發送1600萬條短信，當你讀到這句話的時候谷歌就已經處理了20萬次搜索......每一次的信息革命都可以表明，技術的演進正驅動著數據處理、存儲、傳輸和創建發生巨大的變化。

4000年前，我們將數據刻入乾燥的泥漿中並以粘土盤的形式儲存，烘烤後印在其中的數據就無法更改。大約在1450年，印刷機的發明極大地提高了信息複製的速度，擴大了信息傳遞的範圍。20世紀60年代後，隨著電子計算機革命及其與通信技術的迅速結合，信息傳遞、儲存的質量和速度才得以極大提高，基本實現了信息傳遞、儲存、加工處理以及利用的一體化和自動化。今天，我們又迎來了新的智能互聯網時代。

互聯網經過幾十年發展，傳統互聯網已經失去了發展的空間，在一定程度上走到了瓶頸，未來的機會將是全新的智能互聯網時代。智能互聯網是高速度移動網絡、大數據分析和挖掘、智能感應能力形成的綜合能力，在智能互聯網世界裡，雲存儲會幫助我們記錄一切，對數據的整理、挖掘、分析都具有巨大的價值。而這種革命般的轉變將全部由計算機完成，對現代生活方式起著決定性的作用。

從商業、科學研究到醫療保險，從銀行政府到互聯網，各個不同領域的信息都在爆炸式增長，這種增長甚至超過了我們創造機器的速度、超過了我們的想象空間。互聯網公司更是要被這些數據給淹沒了：谷歌公司每天要處理超過24PB的數據，這意味著其每天的數據處理量是美國國家圖書館所有紙質出版物所含數據量的上千倍；Facebook每天更新的照片量超過1000萬張，每天人們在網站上點讚“LIKE”按鈕或評論次數大約有三十億次；谷歌子公司YouTube每月接待多達8億的訪客，平均每一秒鐘就有一段長度在一小時以上的視頻上傳......而這些數據還在持續增長。

大數據讓我們登上了信息時代的新台階，那麽我們應該如何利用這些龐大的數據流量呢？建造好水壩和渦輪機，才能使洪水真正發揮其作用。

數據的真正價值

數據的價值含量、挖掘成本比數量更為重要。

目前，企業在數據的應用層面上仍然不夠深入。收集、存儲和處理數據的技術成本雖然下降了很多，但各行各業在數據潛在價值的挖掘上卻依然顯得滯後不前。事實上，企業們或多或少都有一定的數據基因，在處處皆數據的概念下，企業也願意用新數據思維的力量，以開放的心態更好地發揮數據價值。

舉個例子來看，微軟的一些研究人員正在研究胰腺癌話題。胰腺癌發現得早可以及時地挽救生命，因此，在這些患者開始搜索有關胰腺癌的信息之前，研究人員會詢問他們在前幾個月或前幾年都搜索了什麽信息內容？通過搜索信息的整合分析，他們發現可以在搜索術語中挖掘出固定的信息內容，直到患者最終準確地預測到患有胰腺癌的那一刻。這個經驗就表明，通過對數據內部潛在知識的串聯，他們可以及時拯救生命，而他們需要做的就是驗證這一發現。這樣當人們搜索這些信息時，他們可以及時準確地進行乾預，並盡早去診斷檢查。研究人員還偶然發現了一種新形式的癌症篩查，這個過程可以提前一個月提醒患者存在患病的風險。

數據的利用不僅僅是最大化利潤或效率的問題——其真正價值遠不止於此。數據中隱藏的東西對人類有著巨大的積極影響。因此，我們必須將數據作為下一步關注的重點。

哈佛大學醫學院附屬波士頓兒童醫院去年進行了26,000多次手術，孩子們在該醫院進行了大約25萬次放射檢查。但是對於醫院工作人員來說，他們卻仍然面臨著一個巨大的障礙：作為醫生，究竟該如何獲取數據？對於他們來說，身處一個隻提供標準醫院電腦的閱覽室裡，想要訪問存儲圖像的PAX存檔抑或是進行額外的數據分析都不簡單。實際情況中，因為存儲數據的費用極高，醫院會因為負擔不起而捨棄掉大部分數據。隨著醫院的數字化推進，他們想要創建並處理大量數據，但並不順利。醫生們根本沒有辦法輕易地從醫院的數據庫中取出圖像，進行分析再回收——因為成本之高讓人望而卻步。

機器學習和人工智能時代後，我們需要更多的計算資源才能真正開始大型數據庫分析。這些數據一直堆積如山，但處理起來卻讓人無從下手，內部數據處理更是遙不可及。精心打造昂貴的超級計算機顯然不是醫院的最佳選擇，直接搬運代碼也不是醫生的必修課，因此需要找到一個更好的方法來獲取、分析和回收數據。點擊圖像、詳細分析、並讓該過程全部發生在雲端，這樣醫院就不必建立自己的伺服器集群，也沒必要將醫務人員變成程序員。醫生們的工作是把注意力集中在擅長的領域上，以解決非常複雜的醫學疾病，充分利用計算方面出現的新技術能夠很好地幫助他們將所有這些事實記錄在腦海中。這樣的一種形式，更能充分發揮數據價值，讓數據能夠挽救生命。

波士頓兒童醫院與紅帽和美國馬薩諸塞州開放雲（MOC）合作開發了一個開源的、基於容器的成像平台ChRIS。ChRIS的一切都在雲上運行，因此，其不受醫院本身計算能力的限制，還有一個Django Python後端數據庫，可以用於跟蹤用戶、跟蹤所處理的數據以及持續跟蹤結果。此外，圍繞這個數據庫還有一大堆服務，它們都作為實例存在於容器中，可以與數據庫等醫院資源進行通信。這些服務處理從這些資源中提取數據的複雜性，然後將數據推送到雲端。在諸如Kubernetes等計算數據的地方，也可以提供相應的數據分析服務，然後再把數據放回去。ChRIS成像平台就是一種讓數據變活的方法，這種處理數據的方式可以讓醫生們變得更好。

優秀醫師的形成肯定離不開反覆的實踐醫學技術，但是，如果通過數據分析並能將信息組合起來，同樣也是一大助力。例如，醫生對某些患者某種受傷模式有了概念層面的了解，再創建患者的分布概率圖，並根據實際數據通知每個人，或者可以尋找具有相似模式的類似患者，在他們嘗試更精準的治療方式時就可以說明什麽方式對他們最好。整合大量數據並針對性地對待任何個人，這對在醫院的孩子們來說，可以提供更有針對性的診斷和更個性化的護理。如果我們有更複雜的數據庫，我們還可以更好地理解複雜的互動，並更好地指導個別患者。

新技術的引進，可能會幫助醫學到達一個不是由藥理學驅動、而是由計算機科學驅動的新轉捩點。任何擁有手機服務的人都可以訪問可能挽救生命的基於網絡的計算和數據，而且除了醫學之外，許多其他領域也可能出現類似的轉捩點，只要能夠弄清楚如何智用我們收集來的數據——要做到這一點，所有人都需要探索一個全新的計算領域。

未來數據的利用

新一代基於雲的計算已經使大數據處理成為可能，在世界各地，我們正在學習如何有效利用和處理數據。對於像ChRIS這樣的平台，一個關鍵因素是實現了基於雲計算的一種新型存儲。現實中的很多醫院都會丟棄他們收集到的數據，因為他們確實無法控制所有數據。因此，擁有一套完善的存儲解決方案對於企業來說至關重要。對於ChRIS，存儲解決方案就是以一個名為Ceph的開源項目形式出現的。ChRIS的創造者Sage Weil就表示，Ceph是一個軟體定義的存儲系統，可以提供可靠的存儲服務，在不可靠的硬體上也能夠提供各種協議。它的設計初衷是可擴展的，因此可以擁有非常大的存儲系統和非常大的數據集，我們可以使它們可用並容忍硬體故障和網絡故障等，而不會影響可用性。

但是，當前的行業明顯還沒有解決可擴展存儲的問題，而且隨著數據量的持續增長，只會變得越來越難以管理。那麽我們需要做些什麽才可能解決這種日益增長的需求？

第一，針對產生的大量數據，我們需要可擴展的系統，這些系統不僅可以擴展正在存儲的硬體和數據量，而且還要具有某種固定或接近固定的操作開銷。第二，人們與存儲互動的方式一直在發生變化，從文件存儲、虛擬機的塊存儲到對象存儲，這是行業中的一個關鍵趨勢。下一階段將不僅僅是提供一個對象存儲端點或是把數據存儲在一個集群中，而是真正採用這種高級別集群，地理上呈現分布式網格或私有數據中心，但在數據存儲上依然能夠管理分布其上的數據。第三，也許我們今天在某個位置寫入數據，隨著時間的推移會因為節省錢或者離數據更近等原因將其分層到其他地方，那出於降低成本的考慮，我們需要將其移至性能較低、容量更高的層。第四，數據的處理要合規，我們在收集數據時必須保持在某些政治邊界內，遵守監管需求。最後，在某些行業會有像HIPAA這樣限制數據移動方式的東西，因此，隨著現代IT組織越來越多地分布在許多不同的數據中心和大量公有雲以及私有雲基礎架構中，自動化管理將變得越來越重要。

數據的開源

那麽在我們考慮如何管理和存儲數據、以及將來如何處理數據的過程中，開源將如何發揮作用？出於對自由開放軟體的強烈感受，很多開發者都希望創建一個開源解決方案。

我們可以發現，以典型的基礎設施領域為例，解決方案正朝著開源的方向發展。基礎設施領域存在高成本壓力，對於構建軟體即服務或雲服務的人來說，開源顯然是一種非常好的方式。此外，技術快速迭代的當下，新框架、新協議以及新的數據思考方式都在保持著快速的創新和改變，許多不同的產品和項目正在相互作用。基於傳統模式的方式很難良好地做到融合，但是開源可以消除所有的這些摩擦。

追求永無止境。與此同時，我們要明白學習如何處理收集到的數據是整整一代人的開源任務。在本文的最後，我們將目光聚焦於美國田納西州的橡樹嶺國家實驗室。這是世界上最快的超級計算機Summit的故鄉，每秒處理200,000兆次計算。像這樣的處理速度對於醫院、銀行或者今天受益於高性能計算的所有組織來說都有點“殺雞用牛刀”的意味。因為通常來看，像Summit這樣的超級計算機更多會被用於強子對撞機領域。但話說回來，我們在幾千年前的粘土片僅僅只能記錄一百個字節的信息，對比實在太震撼了。