美AI芯片“黑馬”殺出，研發出史上最大芯片

據多家外媒 8 月 19 日報導，美國 AI 芯片初創公司 Cerebras Systems 推出了有史以來最大的芯片，這款名為“The Cerebras Wafer Scale Engine”的芯片（下文稱 WSE）有 1.2 兆個晶體管。

在芯片歷史上，1971 年，英特爾的第一個 4004 處理器只有 2300 個晶體管，而最近的一個高級微設備處理器也只有 320 億個晶體管。三星也曾製造過一款擁有 2 兆個晶體管的閃存芯片（ eUFS 芯片），但是不適用於 AI 計算。

WSE，這個創紀錄的最大芯片，它為 AI 計算而生。

（來源：Cerebras Systems）

數據顯示，這個 42,225 平方毫米的芯片，有著 400,000 個核，這些核心通過一個細粒度、全硬體的片內網狀連接的通信網絡連接在一起，提供每秒 100 PB 的總帶寬。更多的核心、更多的本地記憶體和低延遲的高帶寬結構，創建了加速人工智能工作的最佳架構。WSE 比最大的 GPU 還要大 56.7 倍，擁有 18 GB 的 on-chip sram。

事實上，現在的大多數芯片是在 12 英寸矽片基礎上製作的多芯片集成。但 Cerebras Systems 公司的這款芯片是晶體管在單晶矽圓片上製作互相連接的獨立芯片。其互相連接的設計，可以讓所有的晶體管都能如一個整體一般高速運轉。

（來源：Cerebras Systems）

通俗地解釋，這款產品完全就是計算機中的學霸，比計算能力和存儲帶寬，不好意思，人家的級別還是新詞匯——拍字節（Petabytes，1PB=1024TB=10^6GB=2^50bit），速度大約是如今NVIDIA公司最大的圖形處理器（GPU，浮點運算能力很強，常用於 AI 相關研究）的 3000 倍，存儲帶寬則是 1000 倍。

如此強大的能力來源於其片上的 1.2 兆個晶體管，要知道 1971 年 Intel 的 4004 處理器才有 2300 個晶體管，按照摩爾定律來推算：“每 18 個月，芯片上晶體管數目翻倍”，到今年應該剛好 1 兆個晶體管，多一個晶體管，能實現的計算能力就增加一分。其次，其芯片架構設計和芯片互聯及通信方案也是十分超前的，使得 1.2 兆個晶體管之間的協同十分同步，延遲達納秒（nanosecond）級，運行時，這 1.2 兆個晶體管就像一個晶體管一樣同步。

（來源：推特）

在人工智能領域，芯片的大小非常重要。因為大型芯片處理信息的速度更快，產生答案的時間更短。減少觀察的時間，或“訓練時間”，可以讓研究人員測試更多的想法、使用更多的數據，並解決新的問題。谷歌、Facebook、OpenAI、騰訊、百度，以及其他許多公司都認為，如今人工智能發展的根本局限在於，訓練模型的時間太長。因此，減少訓練時間將消除整個行業進步的一個主要瓶頸。

當然，芯片製造商通常不生產大型芯片也是有原因的。在單個晶圓片上，製造過程中通常會出現一些雜質。一點雜質就可以導致芯片故障，嚴重的甚至會擊穿幾個芯片。如果單個晶圓片上隻製作一個芯片，那麽它含有雜質的可能性是 100%，雜質肯定會使芯片失效。但是 Cerebras Systems 的芯片設計是留有裕量的，能夠保證一個或者少量雜質不會使整個芯片失效。

圖| Andrew Feldman（來源：Dean Takahashi）

Cerebras Systems 公司 CEO Feldman 在一份聲明中說，“公司的 WSE 芯片專為人工智能而設計，包含基本的創新，解決了限制芯片尺寸幾十年的技術挑戰，如十字交叉連接、良率、功率輸出和封裝。每一個架構決策都是為了優化人工智能工作的性能。其結果是，WSE 芯片在功耗和空間很小的情況下，根據工作負載提供了現有解決方案數百或數千倍的性能。”

這些性能的提高是通過加速神經網絡訓練的所有要素來實現的。神經網絡是一個多級計算反饋回路。輸入通過循環回路的速度越快，回路學習或“訓練”的速度就越快。讓輸入更快地通過循環的方法是加快循環內的計算和通信的速度。

在通信架構上，由於在 WSE 上使用了中繼處理器，集群通信的架構突破了傳統通信技術中部分功率消耗而導致的帶寬和延時的問題。通過使用二維陣列結構將 400,000 個基於 WSE 的處理器連接在一起，集群架構實現了低延時以及高帶寬的特性，其總體帶寬可以高達每秒 100 拍字節（1017 字節/每秒）。即使沒有安裝任何的額外軟體，這樣的集群結構也可以支持全局信息處理，並由相應的處理器對所接收到的信息進行處理。

（來源：Cerebras Systems）

對於這款產品，量產和散熱可能會是其面臨的主要挑戰。但是，WSE 的問世，本身的亮點已經足夠。

Linley Group 首席分析師 Linley Gwennap 在一份聲明中表示：“Cerebras Systems 在晶圓級封裝( wafer-scale package)的技術上取得了巨大進步，在一塊矽片上實現的處理性能遠遠超出任何人的想象。為了實現這一壯舉，該公司已經解決了困擾該行業數十年的一系列工程挑戰，包括實現高速模對模通信、解決製造缺陷、封裝如此大的芯片、提供高密度電源和冷卻系統。Cerebras Systems 通過將不同學科的頂尖工程師聚集在一起，創造了新技術，並在短短幾年內交付了一個產品，這是一個令人印象深刻的成就。”

Tirias Research 首席分析師兼創始人 Jim McGregor 在一份聲明中表示：“到目前為止，重新配置的圖形處理器滿足了人工智能對計算能力的巨大需求。如今的解決方案將數百個這些重新配置的圖形處理器連接在一起，還需要數月的時間安裝，使用數百千瓦的電力，並要對人工智能軟體進行廣泛修改，甚至還要數月的時間來實現功能。與之相比，單片 WSE 芯片的絕對大小能夠實現更多的計算、更高性能的記憶體和更大的帶寬。通過晶圓級 (wafer-scale) 封裝的集成技術，WSE 芯片避免了松散連接、慢記憶體、基於緩存、以圖形為中心的處理器的芯片固有的傳統性能限制。

（來源：Cerebras Systems）

Cerebras Systems 成立於 2016 年，自成立以來在業內相當神秘低調，專注於為數據中心進行訓練提供芯片產品，曾被 CB Insights 評為“全球最值得期待的 100 家芯片公司”。資料顯示，該公司曾於 2016 年完成 2500 萬美元 A 輪融資，投資方為知名風投 Benchmark，後又獲得多輪融資，截止 2017 年 9 月共獲得 1.12 億美元融資，估值 8.6 億美元。

公司的創始團隊背景實力也十分強勁。聯合創始人及 CEO Andrew Feldman，曾經創立過芯片公司 SeaMicro，後被 AMD 在 2012 年以 3.34 億美元收購。SeaMicro 被 AMD 收購後，原班人馬大都進入 AMD 繼續工作，所以當 Andrew Feldman 大旗一揮要繼續創業時，很多老同事都選擇了跟隨，其他主要團隊成員大都與創始人 Andrew Feldman 師出同門。

其中值得一提的人物是 Gary Lauterbach。在上世紀 90 年代 Sun 公司如日中天之時，Gary Lauterbach 就曾擔任公司的高級芯片設計師，加之後來在 SeaMicro 主要從事低功耗伺服器設計，可以說公司在創世之初就累積了一大批低功耗芯片設計的元老級人物，這對普通創業公司來說無疑可以說是贏在了起跑線上。

隨後，在 2018 年，又有一位重量級人物加盟 Cerebras Systems，前 Intel 公司架構副總裁、數據中心首席技術官 Dhiraj Mallick 正式出任主管工程和商務的副總裁。此人在 Intel 任職期間，2018 年第二季度收入同比去年增長 10 億美元，僅 2018 年上半年就將公司數據中心的收入提高到了 100 億美元，是一位公認的技術與商業奇才。而他也正是 Andrew Feldman 在 SeaMicro 及 AMD 的老同事。現在，這家公司已有 194 名員工。

Cerebras Systems 未來要走的路還很長，但不難想象，AI 正帶來一股計算機體系結構和芯片封裝技術創新潮，可以期待，我們將見證更多更有趣甚至意想不到的 AI 芯片誕生。

-End-

參考：

https://venturebeat.com/2019/08/19/cerebras-systems-unveils-a-record-1-2-trillion-transistor-chip-for-ai/amp/?from=timeline