為什麽說人工智能公司要自建超算？

3月19日，英特爾宣布將與高性能廠商Cray在美國能源部下屬的阿貢國家實驗室建造第一台每秒可進行百億億次浮點運算（exaflop）的超級計算機，專門為傳統高性能計算和人工智能（AI）設計。

而就在一周前的3月12日，NVIDIA宣布69億美元收購以色列公司Mellanox，後者是一家以高性能計算和網絡技術而聞名的芯片製造商，NVIDIA通過此次收購意在搶佔數據中心。

不僅英特爾、NVIDIA這些科技巨頭在布局超算，人工智能創企也紛紛打造超算。商湯超算平台的計算集群已搭載超過14000塊GPU，峰值計算達16億億次/秒，而國家“太湖之光”的峰值計算僅為12.5億億次/秒。

去年曠視宣布完成C輪融資時，創始人印奇也對媒體表示：曠視已經在中國好幾個地方建了非常大的超算平台，未來的算力還需要更多。算力就像當年的存儲一樣，無論擴展得多快，都會被消耗掉，需要不斷去投入。

其實，這些人工智能公司完全可以採用雲服務的模式，比如租賃阿里雲、騰訊雲、AWS、中科曙光等共有雲平台的高性能計算服務。那麽它們為何紛紛選擇自建超算呢？

算法迭代快

計算力和算法是一組最佳CP，如果計算力和算法均是自己研發的，就會產生1+1大於2的“化學反應”。因為原創算法和算力兩者採用統一的接口時，更易於互相匹配和協調。且數據的收集、標注、模型建立、模型訓練到輸出SDK的每一個環節，都可以做到標準化和自動化，整個鏈條就會跑得更快，算法迭代速度更快。而公有雲的超算很難滿足每個企業算法的匹配。

尤其在面臨新需求下的情況，比如需要1000個GPU卡聯合訓練，阿里雲、騰訊雲等這些雲平台均沒有此類服務，那麽新需求就沒法進行下去。從長遠來看，自建超算更利於探索新業務。

前不久，央視315爆出AI客服一年打40多億個騷擾電話，以及犯罪分子通過免費公共WIFI竊取用戶消費信息的現象引起熱議，其背後正是我國數據安全保護薄弱的影射。如果通過公有雲平台做模型訓練，理論上雲平台都可以看到使用方數據。一旦數據被洩露，對使用方公司將是不可逆的打擊。

眼下，5G商用逐步臨近，5G 時代生產方式將發生革命性的變化，很多終端數據處理都可在雲端跑。這也是英特爾、NVIDIA等巨頭企業近期極力打造超算平台的原因之一，因為超算是5G時代巨頭爭霸不可忽視的一面。

冰凍三尺非一日之寒，構建超算不單是將幾千或者幾萬個GPU堆疊起來，還需要一套強大的“管理系統”——就像微軟Windows作業系統。例如阿里耗費多年打造出“盤古分布式系統”，才成為阿里雲的Windows。所以，對於人工智能公司，提前積累超算的經驗十分必要。

從資本角度來看，在5G大爆發的行業環境下，超算的價值愈加凸顯，自建超算有更大的想象空間。在滿足自身計算需求情況下，還可以租賃出去把服務賣給中小企業，或許還能盈利，也是一種商業模式。

價格便宜10倍

以阿里雲平台為例，筆者粗略算了一筆账：

如果在阿里雲平台選擇一塊卡，包括8個Intel Platinum 8163處理器和1個NVIDIA V100，服務價格為每7620元/月，即9.144萬元/年。

一個以上配置的卡成本多少呢？筆者查閱發現，Intel Platinum 8163處理器的價格為1.5萬元/個，NVIDIA V100的價格為7.88萬元/個。所以1.5W*8+7.88*1=19.88萬元，再加上伺服器（包括主機板等硬體）0.5萬元左右，成本共計20.38萬元。

對比發現，選擇阿里雲包月服務所需要的錢大約兩年就可以買一張卡，但一張卡的壽命遠大於兩年，一般至少5-10年。顯然，自己組裝卡是更省錢的。

一位MISSION.ORG的作者Jeff Chen也對比過自建GPU計算機和租賃AWS雲服務，竟然便宜10倍！

他組裝一台GPU計算機，花了3千美元，其配置包括一個1080Ti GPU（你也可以用新的2080Ti來學習機器，只要再多花500美元），一個12核CPU，64GB RAM和1TB M.2 SSD。再加三個GPU，總共四個GPU。

我們非常保守地假設，因為GPU迭代非常快，一塊用於深度學習的GPU在三年內價值變成0。如下表所示，如果用它超過1年，把電費算在內也會便宜10倍，如果把亞馬遜一次購買多年的折扣算在內，1年大概會便宜6倍，3年便宜4倍。4個GPU便宜21倍。

自建計算機和從AWS租賃的費用比較。1個GPU版本便宜4-10倍，4個GPU版本便宜9-21倍，具體取決於利用率。AWS定價包括全年和3年租賃的折扣（35%，60%）。假設功耗為0.20美元/kWh，1台GPU機器消耗1千瓦/小時，4台GPU機器消耗2千瓦/小時。折舊保守估計為3年內的線性損耗。每個GPU 700美元。

如果你想把2080ti用於你的深度學習計算機，會多出500美元，而且對於1 GPU的機器來說，仍然是4-9倍的便宜。

造成這種巨大成本差異的原因是亞馬遜Web服務EC2（或谷歌雲或Microsoft Azure）的GPU價格為3美元/小時或約2100美元/月。即使當你關閉你的機器時，你仍然需要以每月每GB 0.10美元的價格為機器支付存儲費用。

對於一台3千美元的GPU機器學習計算機（1千瓦/小時），如果你經常使用，將在2個月內收支平衡。更不用說你的電腦還歸你所有，而且在兩個月內它沒有貶值多少。同樣，4 GPU版本（2千瓦/小時）的更為有利，因為你將在不到1個月內實現收支平衡。（假設電力成本為0.20美元/kWh）

而且GPU性能與AWS相當。與使用下一代Volta技術的Nvidia v100 GPU相比，你的700美元Nvidia 1080 ti的運行速度為其90%。這是因為存在IO，所以即使V100理論上速度可能快1.5–2倍，IO在實踐中也會減慢速度。由於您使用的是M.2SSD，IO在您自己的計算機上運行得很快。

結語

從1塊卡到幾萬卡還需要運維費用，以及人才成本，但從長遠看，自建超算更有發展潛力，也是AI公司做大的必經之路。

當然，選擇共有雲平台還是自建超算也要根據自身公司體量，畢竟打造超算前期投入較大。

人工智能的核心業務壁壘和競爭力就是算法中的業務邏輯，還有就是數據。如果核心業務已經穩健，數據和算法需要信息安全保護，則需要從公有雲平台遷移至自建超算。

如果只是小範圍驗證業務模式，為了降低成本，可以借助公有雲平台快速部署和按需租用的優勢，如果資金和時間都充裕，可以直接自建超算。