AI芯片的過去和未來，看這篇文章就夠了

矽谷Live / 實地探訪 / 熱點探秘 / 深度探討

相信你一定還記得擊敗了李世石和柯潔的谷歌“阿爾法狗”（Alpha Go），那你知道驅動Alpha Go的是什麽嗎？

如果你覺得Alpha Go和人相似，隻不過是把人腦換成了芯片，那麽你就大錯特錯了。擊敗李世石的Alpha Go裝有48個谷歌的AI芯片，而這48個芯片不是安裝在Alpha Go身體裡，而是在雲端。所以，真正驅動Alpha Go的裝置，看上去是這樣的...

圖片來自網絡，版權屬於作者

因此李世石和柯潔不是輸給了“機器人”，而是輸給了裝有AI芯片的雲工作站。

然而近幾年，AI技術的應用場景開始向移動設備轉移，比如汽車上的自動駕駛、手機上的人臉識別等。產業的需求促成了技術的進步，而AI芯片作為產業的根基，必須達到更強的性能、更高的效率、更小的體積，才能完成AI技術從雲端到終端的轉移。

目前，AI芯片的研發方向主要分兩種：一是基於傳統馮·諾依曼架構的FPGA（現場可編程門陣列）和ASIC（專用集成電路）芯片，二是模仿人腦神經元結構設計的類腦芯片。其中FPGA和ASIC芯片不管是研發還是應用，都已經形成一定規模；而類腦芯片雖然還處於研發初期，但具備很大潛力，可能在未來成為行業內的主流。

這兩條發展路線的主要區別在於，前者沿用馮·諾依曼架構，後者採用類腦架構。你看到的每一台電腦，採用的都是馮·諾依曼架構。它的核心思路就是處理器和記憶體要分開，所以才有了CPU（中央處理器）和記憶體。而類腦架構，顧名思義，模仿人腦神經元結構，因此CPU、記憶體和通信部件都集成在一起。

接下來小探將為讀者分別介紹兩種架構的簡要發展史、技術特點和代表性產品。

從GPU到FPGA和ASIC芯片

2007年以前，受限於當時算法和數據等因素，AI對芯片還沒有特別強烈的需求，通用的CPU芯片即可提供足夠的計算能力。比如現在在讀這篇文章的你，手機或電腦裡就有CPU芯片。

之後由於高清影片和遊戲產業的快速發展，GPU （圖形處理器）芯片取得迅速的發展。因為 GPU 有更多的邏輯運算單元用於處理數據，屬於高並行結構，在處理圖形數據和複雜算法方面比 CPU 更有優勢，又因為AI深度學習的模型參數多、數據規模大、計算量大，此後一段時間內 GPU 代替了 CPU，成為當時 AI 芯片的主流。

GPU 比 CPU 有更多的邏輯運算單元（ALU）

圖片來自網絡，版權屬於作者

然而 GPU 畢竟只是圖形處理器，不是專門用於 AI 深度學習的芯片，自然存在不足，比如在執行AI 應用時，其並行結構的性能無法充分發揮，導致能耗高。

與此同時，AI技術的應用日益增長，在教育、醫療、無人駕駛等領域都能看到 AI 的身影。然而GPU 芯片過高的能耗無法滿足產業的需求，因此取而代之的是 FPGA 芯片，和 ASIC 芯片。

那麽這兩種芯片的技術特點分別是什麽呢？又有什麽代表性的產品呢？

“萬能芯片” FPGA

FPGA（FIELD-PROGRAMMABLE GATE ARRAY），即 “現場可編程門陣列”，是在 PAL、GAL、CPLD 等可編程器件的基礎上進一步發展的產物。

FPGA 可以被理解為“萬能芯片”。用戶通過燒入 FPGA 配置檔案，來定義這些門電路以及記憶體之間的連線，用硬體描述語言（HDL）對 FPGA 的硬體電路進行設計。每完成一次燒錄，FPGA內部的硬體電路就有了確定的連接方式，具有了一定的功能，輸入的數據只需要依次經過各個門電路，就可以得到輸出結果。

用大白話說，“萬能芯片” 就是你需要它有哪些功能、它就能有哪些功能的芯片。

儘管叫“萬能芯片”，FPGA也不是沒有缺陷。正因為 FPGA 的結構具有較高靈活性，量產中單塊芯片的成本也比 ASIC 芯片高，並且在性能上，FPGA 芯片的速度和能耗相比 ASIC 芯片也做出了妥協。

也就是說，“萬能芯片” 雖然是個 “多面手”，但它的性能比不上 ASIC 芯片，價格也比 ASIC 芯片更高。

但是在芯片需求還未成規模、深度學習算法需要不斷迭代改進的情況下，具備可重構特性的FPGA芯片適應性更強。因此用FPGA來實現半定製人工智能芯片，毫無疑問是保險的選擇。

目前，FPGA 芯片市場被美國廠商 Xilinx 和 Altera 瓜分。據國外媒體 Marketwatch 的統計，前者佔全球市場份額 50%、後者佔 35%左右，兩家廠商霸佔了 85% 的市場份額，專利達到 6000 多項，毫無疑問是行業裡的兩座大山。

Xilinx 的 FPGA 芯片從低端到高端，分為四個系列，分別是 Spartan、Artix、Kintex、Vertex，芯片工藝也從 45 到 16 納米不等。芯片工藝水準越高，芯片越小。其中 Spartan 和 Artix 主要針對民用市場，應用包括無人駕駛、智能家居等；Kintex 和 Vertex 主要針對軍用市場，應用包括國防、航空航天等。

Xilinx 的 Spartan 系列 FPGA 芯片

圖片來自網絡，版權屬於作者

我們再說說 Xilinx 的老對手 Altera。Altera 的主流 FPGA 芯片分為兩大類，一種側重低成本應用，容量中等，性能可以滿足一般的應用需求，如 Cyclone 和 MAX 系列；還有一種側重於高性能應用，容量大，性能能滿足各類高端應用，如Startix和Arria系列。Altera的FPGA芯片主要應用在消費電子、無線通信、軍事航空等領域。

專用集成電路 ASIC

在 AI 產業應用大規模興起之前，使用 FPGA 這類適合並行計算的通用芯片來實現加速，可以避免研發 ASIC 這種定製芯片的高投入和風險。

但就像我們剛才說到的，由於通用芯片的設計初衷並非專門針對深度學習，因此 FPGA 難免存在性能、功耗等方面的瓶頸。隨著人工智能應用規模的擴大，這類問題將日益突出。換句話說，我們對人工智能所有的美好設想，都需要芯片追上人工智能迅速發展的步伐。如果芯片跟不上，就會成為人工智能發展的瓶頸。

所以，隨著近幾年人工智能算法和應用領域的快速發展，以及研發上的成果和工藝上的逐漸成熟，ASIC 芯片正在成為人工智能計算芯片發展的主流。

ASIC芯片是針對特定需求而定製的專用芯片。雖然犧牲了通用性，但 ASIC 無論是在性能、功耗還是體積上，都比 FPGA 和 GPU 芯片有優勢，特別是在需要芯片同時具備高性能、低功耗、小體積的移動端設備上，比如我們手上的手機。

但是，因為其通用性低，ASIC 芯片的高研發成本也可能會帶來高風險。然而如果考慮市場因素，ASIC芯片其實是行業的發展大趨勢。

為什麽這麽說呢？因為從伺服器、電腦到無人駕駛汽車、無人機，再到智能家居的各類家電，海量的設備需要引入人工智能計算能力和感知互動能力。出於對實時性的要求，以及訓練數據隱私等考慮，這些能力不可能完全依賴雲端，必須要有本地的軟硬體基礎平台支撐。而 ASIC 芯片高性能、低功耗、小體積的特點恰好能滿足這些需求。

ASIC 芯片市場百家爭鳴

2016 年，英偉達發布了專門用於加速 AI 計算的 Tesla P100 芯片，並且在 2017 年更新為 Tesla V100。在訓練超大型神經網絡模型時，Tesla V100 可以為深度學習相關的模型訓練和推斷應用提供高達 125 兆次每秒的張量計算（張量計算是AI深度學習中最經常用到的計算）。然而在最高性能模式下，Tesla V100的功耗達到了300W，雖然性能強勁，但也毫無疑問是顆“核彈”，因為太費電了。

英偉達 Tesla V100 芯片

圖片來自網絡，版權屬於作者

同樣在 2016 年，谷歌發布了加速深度學習的 TPU（Tensor Processing Unit）芯片，並且之後更新為 TPU 2.0 和 TPU 3.0。與英偉達的芯片不同，谷歌的 TPU 芯片設定在雲端，就像文章在Alpha Go 的例子中說的一樣，並且“隻租不賣“，服務按小時收費。不過谷歌 TPU 的性能也十分強大，算力達到 180 兆次每秒，並且功耗只有200w。

谷歌 TPU 芯片

圖片來自網絡，版權屬於作者

關於各自 AI 芯片的性能，谷歌 CEO Sundar Pichai 和英偉達CEO 黃仁勳之前還在網上產生過爭論。別看兩位大佬為自家產品撐腰，爭得不可開交，實際上不少網友指出，這兩款產品沒必要“硬做比較”，因為一個是在雲端，一個是在終端。

除了大公司，初創企業也在激烈競爭 ASIC 芯片市場。那麽初創企業在行業中該如何生存呢？對此，AI 芯片初創企業 Novumind 的中國區 CEO 周斌告訴小探：創新是初創企業的核心競爭力。

2017 年，NovuMind 推出了第一款自主設計的AI芯片：NovuTensor。這款芯片使用原生張量處理器（Native Tensor Processor）作為內核構架，這種內核架構由 NovuMind 自主研發，並在短短一年內獲得美國專利。除此之外，NovuTensor 芯片採用不同的異構計算模式來應對不同 AI 應用領域的三維張量計算。2018年下半年，Novumind 剛推出了新一代 NovuTensor 芯片，這款芯片在做到 15 兆次計算每秒的同時，全芯片功耗控制在 15W 左右，效率極高。

Novumind 的 NovuTensor 芯片

儘管 NovuTensor 芯片的紙面算力不如英偉達的芯片，但是其計算延遲和功耗卻低得多，因此適合邊緣端 AI計算，也就是服務於物聯網。雖然大家都在追求高算力，但實際上不是所有芯片都需要高算力的。比如用在手機、智能眼鏡上的芯片，雖然也對算力有一定要求，但更需要的是低能耗，否則你的手機、智能眼鏡等產品，用幾下就沒電了，也是很麻煩的一件事情。並且據 EE Times 的報導，在運行 ResNet-18、ResNet-34、ResNet70、VGG16等業界標準神經網絡推理時，NovuTensor 芯片的吞吐量和延遲都要優於英偉達的另一款高端芯片 Xavier。

結合Novumind現階段的成功，我們不難看出：在雲端市場目前被英偉達、谷歌等巨頭公司霸佔，終端應用芯片群雄逐鹿的情形下，專注技術創新，在關鍵指標上大幅領先所有競爭對手，或許是AI芯片初創企業的生存之道。

類腦芯片

如文章開頭所說，目前所有電腦，包括以上談到的所有芯片，都基於馮·諾依曼架構。

然而這種架構並非十全十美。將CPU與記憶體分開的設計，反而會導致所謂的馮·諾伊曼瓶頸（von Neumann bottleneck）：CPU與記憶體之間的資料傳輸率，與記憶體的容量和CPU的工作效率相比都非常小，因此當CPU需要在巨大的資料上執行一些簡單指令時，資料傳輸率就成了整體效率非常嚴重的限制。

既然要研製人工智能芯片，那麽有的專家就回歸問題本身，開始模仿人腦的結構。

人腦內有上千億個神經元，而且每個神經元都通過成千上萬個突觸與其他神經元相連，形成超級龐大的神經元回路，以分布式和並發式的方式傳導信號，相當於超大規模的並行計算，因此算力極強。人腦的另一個特點是，不是大腦的每個部分都一直在工作，從而整體能耗很低。

神經元結構

圖片來源：維基百科

這種類腦芯片跟傳統的馮·諾依曼架構不同，它的記憶體、CPU和通信部件是完全集成在一起，把數字處理器當作神經元，把記憶體作為突觸。除此之外，在類腦芯片上，資訊的處理完全在本地進行，而且由於本地處理的數據量並不大，傳統電腦記憶體與CPU之間的瓶頸不複存在了。同時，神經元只要接收到其他神經元發過來的脈衝，這些神經元就會同時做動作，因此神經元之間可以方便快捷地相互溝通。

在類腦芯片的研發上，IBM 是行業內的先行者。2014 年 IBM 發布了 TrueNorth 類腦芯片，這款芯片在直徑只有幾厘米的方寸的太空裡，集成了 4096 個內核、100 萬個“神經元”和 2.56 億個“突觸”，能耗只有不到 70 毫瓦，可謂是高集成、低功耗的完美演繹。

裝有16個TrueNorth芯片的DARPA SyNAPSE主機板

圖片來自網絡，版權屬於作者

那麽這款芯片的實戰表現如何呢？IBM研究小組曾經利用做過 DARPA 的NeoVision2 Tower數據集做過演示。它能以30幀每秒速度，實時識別出街景影片中的人、自行車、公車、卡車等，準確率達到了80%。相比之下，一台筆電編程完成同樣的任務用時要慢100倍，能耗卻是IBM芯片的1萬倍。

然而目前類腦芯片研製的挑戰之一，是在硬體層面上模仿人腦中的神經突觸，換而言之就是設計完美的人造突觸。

在現有的類腦芯片中，通常用施加電壓的方式來模擬神經元中的資訊傳輸。但存在的問題是，由於大多數由非晶材料製成的人造突觸中，離子通過的路徑有無限種可能，難以預測離子究竟走哪一條路，造成不同神經元電流輸出的差異。

針對這個問題，今年麻省理工的研究團隊製造了一種類腦芯片，其中的人造突觸由矽鍺製成，每個突觸約 25 納米。對每個突觸施加電壓時，所有突觸都表現出幾乎相同的離子流，突觸之間的差異約為 4%。與無定形材料製成的突觸相比，其性能更為一致。

即便如此，類腦芯片距離人腦也還有相當大的距離，畢竟人腦裡的神經元個數有上千億個，而現在最先進的類腦芯片中的神經元也只有幾百萬個，連人腦的萬分之一都不到。因此這類芯片的研究，離成為市場上可以大規模廣泛使用的成熟技術，還有很長的路要走，但是長期來看類腦芯片有可能會帶來計算體系的革命。

說了這麽多，相信讀者們對 AI 芯片行業已經有了基本的認識。在未來，AI芯片是否會從雲端向終端發展？行業中大小公司的激烈的競爭會催生出怎樣的創新和轉型？類腦芯片的研發又能取得哪些突破？關於這些問題，每個人都會有不同的見解，歡迎各位讀者在下面留言。