深度：32家公司決戰雲端AI芯片！

智東西(公眾號:zhidxcom)

文 | 心緣

2019年，新的雲端AI芯片戰場正風起雲湧。

過去幾年，人工智能（AI）從一個被輕視的學術冷門研究突然爆紅，一路狂奔到商業化的最前沿，在安防、金融、教育、製造、家居、娛樂等各個與人們生活息息相關的領域掀起了一股智能化升級和萬物互聯的颶風。

這場前所未有的技術革命的直接推動者，是國外谷歌微軟Facebook、國內BAT等互聯網巨頭以及一眾新生的AI初創企業，而這些公司快速在AI領域開疆辟土的靈魂支柱，則是提供源源不斷高密度計算能力的AI硬體提供商。

AI硬體應用場景通常分為雲端和終端，雲端主要指大規模數據中心和伺服器，終端包括手機、車載、安防攝影頭、機器人等豐富的場景。

無論是在線翻譯、語音助手、個性化推薦還是各種降低開發者使用門檻的AI開發平台，但凡需要AI技術之處，背後都需要雲端AI芯片夜以繼日地為數據中心提供強大的算力支撐。

根據NVIDIA在2017年亮出的數據，到2020年，全球雲端AI芯片的市場規模累計將超過200億美元，這個體量龐大的市場已成為各路芯片巨頭虎視眈眈之地。

NVIDIA通用圖形處理單元（GPGPU）即是乘著深度學習的東風扶搖直上，股價在2015年還是20美元，到2018年10月飆升至292美元，市值超過肯德基和麥當勞，一躍成為AI領域第一股，市值數十億美元，坐享無限風光。

其火箭般的漲勢驚醒了一眾潛在競爭對手，風暴出現在地平線上。半導體巨頭英特爾、AMD等奮起直追，谷歌、亞馬遜、百度、華為跨界自研，還有數十家新生芯片創企揭竿而起，意圖通過自研架構等方式突破雲端AI芯片性能的天花板，重塑這一市場的版圖。

本文將對雲端AI芯片的戰事進行全景式複盤，盤點加入戰局的五大半導體巨頭、七大中美科技巨頭和20家國內外芯片創企，看曾經締造神話的NVIDIA，能否維系它的傳奇帝國？如今已經出現或者正在開發的新計算架構，能否適配未來的算法？哪些企業更有望在強手如林的競爭環境中生存下來？

誰能主導這場雲端AI芯片戰事，誰就掌握了將在未來雲計算和AI市場的戰役中贏得更多話語權。

一、十年押注，AI核彈發射

一切始於意外，又絕非一次意外。

十幾年前，NVIDIA（NVIDIA）在經歷過和數十家對手的激烈廝殺後，和AMD成為圖形顯卡領域的兩大霸主。那時，大多數NVIDIA員工們，並不知道人工智能（AI）是什麽。

彼時，NVIDIA總營收規模約30億美元，其創始人兼CEO黃仁勳做了一個冒險的決定——每年為CUDA項目砸5億美元，通過一系列改動和軟體開發，將GPU轉化成更通用的計算工具，累計總額近100億美元。

這是一個極具前瞻性的決定。2006年，全球首款GPU上的通用計算解決方案CUDA現世，這一技術為編程人員帶來越來越方便的入門體驗，逐漸為NVIDIA GPU積累了強健穩固的開發者生態。

直到2012年，NVIDIA遇到了深度學習的風口。

這一年，加拿大多倫多大學教授、機器學習領域泰鬥、神經網絡之父Geoffrey Hinton帶領課題組用GPU訓練卷積神經網絡（CNN）AlexNet，一舉拿下ImageNet圖像識別比賽的冠軍，將AI推到了學術界焦點的歷史性轉捩點。

GPU並非為深度學習而生，其並行計算能力竟與深度學習算法的邏輯一拍即合。每個GPU有數千個內核並行，這些核心通常執行許多低級的、繁複的數學運算，非常適合運行深度學習算法。

之後，越來越強的“CUDA+GPU”組合，憑借無敵的處理速度和多任務處理能力，迅速俘獲一大批研究人員們的芳心，很快就成為全球各大數據中心和雲服務基礎設施的必備組件。

巨頭們的雲端AI芯片之戰，悄然拉開序幕。

二、芯片巨頭鏖戰雲端：NVIDIA獨霸，英特爾AMD奮起

起步早加上生態穩健，NVIDIA很快就成為雲端AI芯片市場的領導者。

NVIDIA在通往更強的道路上一往無前，陸續展示令人驚歎的Tensor Core、NVSwitch等技術，不斷打造新的性能標杆。此外，它還構建了GPU雲，使得開發者隨時可以下載新版的深度學習優化軟體堆棧容器，極大程度上降低了AI研發與應用的門檻。

就這樣，NVIDIA靠時間、人才和技術的積累，壘起了堅不可摧的城牆。想要城池者，無不需要遵循NVIDIA指定的法則。截至今日，NVIDIA的工程師軍團已逾萬人，其GPU+CUDA計算平台是迄今為止最為成熟的AI訓練方案，吞食掉絕大多數訓練市場的蛋糕。

從功能來看，雲AI芯片主要在做兩件事：訓練（Training）和推理（Inference）。

訓練是把海量數據塞給機器，通過反覆調整AI算法，使其學習掌握特定的功能。這個過程需要極高的計算性能、精度和通用性。

推理則是將訓練好的模型拿來應用，它的參數已經固化，也不需要海量數據，對性能、精度和通用性的要求沒有訓練那麽高。

GPU在訓練市場的是一座難以翻越的高山，但在對功耗要求更高的推理市場，它的優勢相對沒那麽明顯。

而這裡，也是入局偏晚的半導體巨頭們聚集的方向。

芯片巨頭主要雲端AI芯片產品不完全統計

1、GPU：NVIDIA贏者通吃，AMD搶壘7nm

芯片是贏者通吃的市場，雲端AI芯片亦不例外，NVIDIA為加速數據中心應用推出的高中低端通用GPU，一直是各路玩家參考的性能標杆。

NVIDIA在短時間內投入數十億美元動用數千工程師，於2016年推出了第一個專為深度學習優化的Pascal GPU。2017年，它又推出了性能相比Pascal提升5倍的新GPU架構Volta，神經網絡推理加速器TensorRT 3也同期亮相。

在最新季度財報中，NVIDIA數據中心收入同比增長58％至7.92億美元，佔公司總收入的近25％，在過去的四個季度中總共達到了28.6億美元。如果它能夠保持這種增長，預計2019年的數據中心將達到約45億美元。

和NVIDIA在GPU領域長期相爭的AMD，亦在積極地推進對AI加速計算的研發。2016年12月，AMD宣布主打AI與深度學習的加速卡計劃——Radeon Instinct。

說起來，AMD在深度學習領域的起步離不開中國公司的支持。百度是第一家在數據中心採用AMD Radeon Instinct GPU的中國公司，後來阿里巴巴也跟AMD簽了合約。

目前AMD的GPU仍然至少落後於NVIDIA的一代Tesla V100，不過在NVIDIA新招未發之時，AMD率先在其Next Horizon會議上宣布推出全球首款7nm GPU，名為Radeon Instinct MI60，記憶體帶寬高達1 TB /秒，並聲稱其7nm GPU通過AMD Infinity Fabric Link等技術，成為世界上最快的雙精度加速器，可以提供高達7.4 TFLOPS的浮點性能。

除了提供GPU芯片，AMD也在通過推出ROCm開放軟體平台等方式構建更強大的開源機器學習生態系統。

雖說GPU暫時還抗不過NVIDIA，不過AMD有自己獨特的優勢。AMD既有GPU又有CPU，可以在其GPU與CPU間用Infinity Fabric實現無縫連接，而英特爾至強處理器+NVIDIA GPU就很難做到這樣的完美連接。

同樣扎在GPU市場安營扎寨的還有Imagination Technologies，只不過它長期深耕於移動GPU。從2017年到2018年，Imagination宣布了三款新的PowerVR圖形處理單元（GPU），主打AI終端市場。

在去年年底，Imagination高管在接受採訪時透露，Imagination可能會宣布推出面向AI訓練的GPU。

2、FPGA：賽靈思打出創新牌，英特爾“買”出全套大禮包

在AI推理的應用當中，FPGA相較專用集成電路（ASIC）具有靈活可編程的優勢，它們可以針對特定的工作進行即時重新配置，比GPU功耗更低。

處理器的靈活性與性能差異

FPGA領域的老大老二常年是賽靈思和英特爾Altera，面對新興的AI市場，體內的創新基因亦是躍躍欲試。

賽靈思即將上線的大殺器叫Versal，這是業界首款自適應計算加速平台（Adaptive Compute Acceleration Platform ，ACAP），採用台積電7nm工藝，集成了AI和DSP引擎，其軟硬體均可由開發者進行編程和優化。

這一殺器用了4年的時間來打磨，據稱Versal AI Core的AI推斷性能預計比業領先的GPU提升8倍。按照此前賽靈思釋放的消息，Versal將在今年發貨。

有業內人士認為，Versal系列可能會改變AI推理市場。

如果說NVIDIA打開AI的大門，靠的是天然契合的基因，那麽英特爾則是靠“買買買”的捷徑，快速躋身雲AI芯片的前排。作為幾十年的半導體霸主，英特爾一出手目標就是成為“全才”。

眾所周知，英特爾屹立不倒的王牌是至強處理器。至強處理器猶如一個智慧超群的軍師，運籌帷幄，能處理各種任務，但如果你讓他去鑄造兵器，他的效率則完全比不過一個頭腦簡單但有一身蠻力的武夫。

因此，面對擁有大量重複性簡單運算的AI，讓至強處理器去處理此類任務既是大材小用，結果又很低效。英特爾的做法是給至強處理器搭配加速器。

沒有做AI加速器的技術背景怎麽辦？英特爾大筆一揮，直接買！

2015年12月，英特爾砸下167億美元買走當時的可編程邏輯器件（FPGA）的前年老二Altera，如今英特爾憑著“Xeon+Altera FPGA”異構芯片的打法，將數據中心某些任務提速十倍有余。

尤其是近一年來，英特爾對FPGA的加碼肉眼可見。前兩年，英特爾陸續推出號稱是史上最快FPGA芯片的Stratix 10系列，這一系列獲得了微軟的青睞。

微軟推出基於英特爾Stratix 10 FPGA的雲端解決方案Project Brainwave，稱其運行速度達39.5 TFLOPS，延遲不足1 ms。

除了Stratix 10 FPGA芯片外，英特爾先是去年12月在重慶落戶了其全球最大的FPGA創新中心，後又在今年4月亮出被悄然打磨了數年的新武器——全新架構的FPGA Agilex，集成了英特爾最先進的10nm工藝、3D封裝、第二代HyperFlex等多種創新技術。

英特爾的FPGA已經在伺服器市場初步站穩腳跟，而另一項重要的交易還處於蟄伏期。

2016年8月，英特爾花了三四億美元買下專注於打造深度學習專用於硬體的加州創企Nervana，收購後不久，前Nervana CEO就被晉升為英特爾AI事業部總負責人，首款採用台積電28nm工藝的深度學習專用芯片Lake Crest在2018年量產，並宣稱性能是當時最快的GPU的10倍。

2018年5月，英特爾全新雲AI芯片Nervana神經網絡處理器（Nervana Neural Network Processors，NNP）——Spring Crest正式亮相，據稱其功耗小於210瓦，訓練性能比Lake Crest提升3-4倍，將於2019年下半年向用戶開放。

對於雲端AI芯片推理，英特爾在拉斯維加斯舉行的CES上透露，它正在與Facebook就Nervana神經網絡處理器NNP-I的推理版本密切合作。NNP-I將是一個片上系統（SoC），內置英特爾10nm晶體管，並將包括IceLake x86內核。

對比谷歌的TPU來看，英特爾人工智能事業群（AIPG）副總裁、Nervana團隊核心成員Carey Kloss認為TPU 2.0類似於Lake Crest，TPU 3.0類似於Spring Crest。

3、新晉入局者：終端芯片巨頭高通

在移動芯片領域如日中天的高通，也剛剛舉起進軍雲計算和超算領域的敲門磚。

今年4月，高通宣布推出Cloud AI 100加速器，將高通的技術拓展至數據中心，預計將於2019年下半年開始向客戶出樣。

據悉，這款加速器基於高通在信號處理和功效方面的技術積累，專為滿足急劇增長的雲端AI推理處理的需求而設計，可以讓分布式智能從雲端遍布至用戶的邊緣終端，以及雲端和邊緣終端之間的全部節點。

高通產品管理高級副總裁Keith Kressin稱：“高通CloudAI 100加速器將為當今業界的數據中心的AI推理處理器樹立全新標杆——無論是採用CPU、GPU和/或FPGA的哪種組合方式來實現AI推理的處理器。”

此外，他還介紹說，高通目前正處在優勢地位支持完整的從雲端到邊緣的AI解決方案，所有的AI解決方案均可與具備高速率和低時延優勢的5G實現連接。

三、跨界巨頭跌出：互聯網霸主爭上遊

相比上面對雲和數據中心市場野心勃勃的芯片巨頭們，下面這些跨界玩家的心思可就相對“單純”很多。

這些中美互聯網巨頭的目標不是直接與NVIDIA、英特爾或AMD競爭，而是向他們自己的雲客戶提供強大的算力，減少對傳統芯片製造商的依賴。

他們自研芯片的選擇也不盡相同，谷歌、亞馬遜等選擇專用芯片（ASIC）的路線，而微軟等則致力於使用現場可編程門列（FPGA）。

跨界科技巨頭主要雲端AI芯片產品不完全統計

1、谷歌：專用AI芯片商用開路人

作為最早開始做AI相關研發的科技公司之一，谷歌亦是試水專用AI芯片的先鋒，最早驗證ASIC可以在深度學習領域替代GPU。

谷歌於2016年推出了自己開發的AI芯片Tensor Processing Unit（TPU），現已進入第三代，為谷歌的語音助理、谷歌地圖、谷歌翻譯等各種AI應用提供算力支撐。最初設計的TPU用於深度學習的推理階段，而新版本已經可以用於AI訓練。

谷歌聲稱，使用32種最好的商用GPU訓練機器翻譯系統需要一天的時間，相同的工作量需要在8個連接的TPU上花費6個小時。

谷歌目前只在自己的數據中心內運營這種設備，沒有對外出售。不過最近，谷歌表示將允許其他公司通過其雲計算機服務購買其TPU芯片。

谷歌TPU在谷歌對外服務的市場是有限制的，TPU只能用與和運行Google TensorFlow AI框架，用戶無法使用它們來訓練或運行使用Apache MxNet或Facebook的PyTorch構建的AI，也不能將它們用於GPU佔據著至高無上地位的非AI HPC應用程序中。

但谷歌對此表示滿意，因為它將TPU和TensorFlow視為其全面的AI領導力的戰略。針對其軟體進行了優化的軟體針對其軟體進行了優化，可以構建強大而耐用的平台。

今年開年的新消息是谷歌在印度班加羅爾成立了新的芯片團隊gChips，並從英特爾、高通、博通和NVIDIA等傳統芯片公司那裡大舉招兵買馬，至少招募了16名技術老兵。

2、內部商用在即：微軟FPGA、百度昆侖與華為昇騰

去年5月，微軟AI芯片Brainwave開放雲端測試版，稱Project Brainwave計算平台使用的FPGA芯片為實時AI而設計，比谷歌使用的TPU芯片處理速度快上了5倍（微軟AI芯片Brainwave開放雲端試用版比TPU快5倍）。微軟Azure執行副總裁Jason Zander還曾表示，微軟Azure實際上設計了許多自研芯片，用於數據中心。

不得不承認，國內科技巨頭給芯片起名字，那文化水準高出國外不止一個Level。

百度給雲端AI芯片命名的“昆侖”是中國第一神山，相傳這座山的先主，被古人尊為“萬山之宗”、“龍脈之祖”，嫦娥奔月、西遊記、白蛇傳等家喻戶曉的神話傳說都與此山有所關聯。

華為雲端AI芯片的“昇騰”則取超脫塵世、上升、器宇軒昂之義，頗受文人墨客的喜愛。

百度和華為都是國內早早跨界造芯的科技公司。早在2017年8月，百度就在加州Hot Chips大會上發布了一款256核、基於FPGA的雲計算加速芯片，合作夥伴是賽靈思。華為做芯片就更早了，2004年就成立半導體公司海思，只不過以前都是做終端的芯片解決方案。

2018年下半年，以它們為代表的新一輪造芯勢力吹響了中國雲端AI芯片衝鋒的號角。

百度是國內較早試水造芯的科技巨頭，最早在2010年就開始用FPGA做AI架構的研發，2011年開展小規模部署上線，2015年打破幾千片的部署規模，2017年部署超過了10000片FPGA，百度內部數據中心、自動駕駛系統等都在大規模使用。

2017年8月，百度發布了一款256核、基於FPGA的XPU芯片，這款是和賽靈思合作的，核心很小，沒有緩存或作業系統，效率與CPU相當。

隨後在2018年7月舉辦的百度AI開發者大會上，百度宣布當時業內的算力最高的AI芯片——昆侖。

參數方面，昆侖芯片由三星代工，採用14nm工藝，記憶體帶寬達512GB/s，核心有數萬個，能在100W以上的功耗提供260 TOPS的算力。

以NVIDIA最新圖靈（Turing）架構的T4 GPU為對比，T4最大功耗為70W，能提供的最高算力也是260 TOPS，但這款GPU比昆侖芯片的發布晚了2個月，並且初期並沒有在中國開售。百度主任架構師歐陽劍在今年的AI芯片創新峰會上透露，今年“昆侖”會在百度內部大規模使用。

華為的雲端AI芯片昇騰910更是直接在發布現場和NVIDIA與谷歌正面PK。昇騰910直接用起了最先進的7nm工藝，採用華為自研的達文西架構，最大功耗350W。華為打的旗號是截止到發布日期“單芯片計算密度最大的芯片”，半精度（FP16）運算能力達到256 TFLOPS，比NVIDIA V100的125 TFLOPS足足高了一倍。

徐直軍甚至表示，假設集齊1024個昇騰910，會出現“迄今為止全球最大的AI計算集群，性能達到256P，不管多麽複雜的模型都能輕鬆訓練。”這個大規模分布式訓練系統，名為“Ascend Cluster”。

落地方面，百度稱其昆侖將於今年年內在百度數據中心大規模使用，華為的昇騰910原計劃在今年Q2上市，現在在貿易戰的背景之下，不知道會不會延遲。

3、神秘主義：亞馬遜、阿里與臉書

作為中美雲計算市場的龍頭，阿里巴巴和亞馬遜雖然稍微遲到，但絕對不會缺席。

兩家的研發目的都很明確，是為了解決圖像、視頻識別、雲計算等商業場景的AI推理運算問題，提升運算效率、降低成本。

阿里巴巴達摩院去年4月宣布，Ali-NPU性能將是現在市面上主流CPU、GPU架構AI芯片的10倍，製造成本和功耗僅為一半，性價比超40倍。同月，阿里全資收購大陸唯一的自主嵌入式CPU IP核公司中天微。

新進展發生在9月，阿里將中天微與達摩院自研芯片業務合並，整合成一家芯片公司平頭哥。研發Ali-NPU的重任由平頭哥接棒，首批AI芯片預計2019年下半年面世，將應用在阿里數據中心、城市大腦和自動駕駛等雲端數據場景中。未來將通過阿里雲對外開放使用。

在模擬驗證測試中，這款芯片的原型讓鋪設阿里城市大腦的硬體成本節約了35%。但此後，阿里幾乎未再發出相關進展的聲音。

亞馬遜的雲AI芯片Inferentia是去年11月在拉斯維加斯舉行的re：Invent大會上公布的。

這款芯片的技術源頭要追溯到亞馬遜在2015年初花費3.5億美元收購的以色列芯片公司Annapurna Labs。按照官方介紹，每個Inferentia芯片提供高達幾百TOPS的算力，多個AWS Inferentia芯片可形成成千上萬的TOPS算力。該芯片仍在開發中，按預告，這款芯片將於2019年底上市。

Facebook的造芯計劃浮出水面的很早，但卻是信息曝光最少的玩家。

除了買下相對成熟的芯片公司外，招兵買馬也是常備之選。Facebook的造芯計劃在去年4月初露端倪，官網上發布了招聘ASIC&FPGA設計工程師的廣告，用於組建芯片團隊。3個月後，美媒彭博社報導稱，Facebook挖走谷歌高級工程師主管Shahriar Rabii擔任副總裁兼芯片負責人。

Facebook首席人工智能科學家、最新圖靈獎獲得者Yann LeCun在接受採訪時透露，其造芯主要是未來滿足對網站進行實時視頻監控的需求。

而等到今年1月時，英特爾在全球消費電子展（CES）上表示，正與Facebook合作開發一款新的AI芯片，用於加速推理，並力爭在今年下半年開發完成。

不過迄今為止，外界對Facebook AI芯片的性能信息一無所知。

四、新秀迭出：國內創企搶先落地，國外創企醞釀大招

AI的複興顛覆了以往由英特爾、AMD、高通等頂級芯片公司carry全產業的穩定局面，為新的一批芯片創業者創造了機會。

一些初創公司希望從頭開始創建一個新平台，一直到硬體，專門針對AI操作進行優化。希望通過這樣做，它能夠在速度，功耗，甚至可能是芯片的實際尺寸方面超越GPU。

國內初創企業主要雲端AI芯片產品不完全統計

1、中國創企：比特大陸寒武紀領銜，依圖智能密度超NVIDIA

先說國內做雲端AI芯片創企，其中最耀眼的當屬比特大陸和中科寒武紀。

比特大陸作為礦機芯片老大業界聞名，但在過去一年的比特幣大退潮中，比特大陸首當其衝陷入輿論漩渦，上市計劃未能如期實現。

這家2013年成立的公司，在2015年就啟動AI芯片業務。繼2017年推出第一代28nm雲端AI芯片產品BM1680後，它在2018年第一季度發布第二代BM1682，迭代時間僅9個月。

按照比特大陸去年公布的造芯計劃，12nm的雲端芯片BM1684應在2018年年底推出，BM1686將在2019年推出，很可能採用7nm製程，不過這兩款芯片都姍姍來遲。

和比特大陸一樣同時發力雲端和終端芯片的還有AI小芯片獨角獸中科寒武紀。

寒武紀曾因嵌在華為首款手機AI芯片中麒麟970中的神經網絡處理器（NPU）成功打響知名度，成為國內外AI芯片創企中的當紅炸子雞，在經歷A、B兩輪融資後，整體估值約25億美元（約170多億人民幣）。

2018年5月，寒武紀正式發布第一代雲AI芯片MLU100，據稱可以以更低的功率提供比NVIDIA V100更好的性能。其客戶科大訊飛曾披露測試結果，稱MLU100芯片在語音智能處理的能耗效率領先國際競爭對手的雲端GPU方案5倍以上。

一年後，其第二代雲端AI芯片思元270芯片未發先熱，部分性能被知乎網友曝光，峰值性能和功耗都基本與NVIDIA Tesla T4基本持平，業內傳聞寒武紀可能在低精度訓練領域有所突破。該芯片不出意外地話將於近期發布。

欲對標NVIDIA和谷歌的創企不止於此。

令人稍感意外的玩家是國內計算機視覺（CV）四小龍之一依圖科技。今年5月，依圖發布了與AI芯片創企熠知電子（ThinkForce）聯合開發的首款雲端AI芯片求索questcore。

熠知電子是一家低調但不容小覷的上海AI芯片創企，於2017年獲依圖科技、雲鋒基金、紅杉資本、高瓴資本的4.5億元人民幣A輪融資。其核心成員來自IBM、AMD、英特爾、博通、Cadence等半導體巨頭，均有十年以上的芯片行業從業經歷。

這款雲端深度學習推理定製化SoC芯片採用16nm製程和擁有自主知識產權的ManyCore架構，據稱最高能提供每秒15 TOPS的視覺推理性能，僅針對INT 8數據（8 位整數數據類型）進行加速，最大功耗僅20W，比一個普通的電燈泡還小。

依圖表示，開發這款芯片不是想追求NVIDIA那樣幾百個T的算力，而是看重高計算密度。

和前述的跨界科技巨頭們一樣，依圖芯片商用的第一步也是結合其自身軟硬體和解決方案打包出售，不會單獨售賣，第二、三代產品也都在籌備中。

上海的熱門造芯新勢力還有燧原科技。它可以說是國內最年輕的AI芯片造芯者，2018年3月成立，獲得由騰訊領投的3.4億元人民幣Pre-A輪融資，主攻雲端AI加速芯片及相關軟體生態的研發投入。這是騰訊第一次投資國內AI芯片創企。

燧原科技的創始團隊主要來自於AMD，其創始人趙立東此前曾任職於 AMD 中國，後又赴銳迪科（現與展訊合並為紫光展銳）任職總裁。

2019年6月6日，燧原科技宣布新一輪3億元人民幣融資，由紅點創投中國基金領投，海松資本、騰訊等投資。其深度學習高端芯片的神秘面紗尚未揭開。

和前幾位玩家不同的是，天數智芯和登臨科技選擇的是直接與NVIDIA對標的通用GPU（GPU）。

在國內，尚無能與NVIDIA分庭抗禮的GPGPU公司，這對創企而言是個值得切入的機會。

兩家公司的造芯陣容都很成熟，天數智芯的硬體團隊基於AMD在上海和矽谷的GPU團隊，登臨科技的創始團隊也是在GPU行業多年的老將。

目前天數智芯的高中低端GPGPU產品都在研發中，其高端芯片Big Island將同時支持雲端推理和訓練。登臨科技的GPGPU處理器也已通過FPGA驗證，第一代產品Goldwasser的設計已完成，計劃在今年年底前可供客戶測試使用。

還有一家創企名為龍加智，創立於2017年7月，由摯信資本和翊翎資本領投，致力於研發TPU芯片。

為了滿足對低時延、高可靠性和數據安全的需求，龍加智推出新的芯片類型關鍵任務芯片（Mission-Critical AI Processor），第一代芯片命名Dino-TPU，最先應用於雲端數據中心，算力超過除最新款Nvidia Volta之外的所有GPU，時延僅為Volta V100的1/10，功耗為75W，且獨具冗余備份和數據安全保障。

按照龍加智的開發計劃，公司計劃於 2018 年底完成第一款芯片的流片。

2、美國創企：Wave 7nm芯片推出在即，Cerebras仍處於秘密模式

在大洋彼岸，美國多家AI芯片創企也瞄準了雲與計算中心市場。

一家去年存在感較強的企業是Wave Computing。這家創企去年收購了老芯片IP供應商MIPS，還推出MIPS開放計劃。它的累計融資達到1.17億美元。

它的核心產品叫其數據流處理器單元（DPU），採用非馮諾依曼（von Neumann）架構的軟體可動態重構處理器CGRA（Coarse grain reconfigurable array/accelerator）技術，適用於大規模異步並行計算問題。

其主要優勢是使得硬體更加靈活地適配於軟體，在可編程性（或通用性）和性能方面達到很好的綜合平衡，降低AI芯片開發門檻，不會受到GPU等加速器中存在的記憶體瓶頸的影響。

Wave的第一代DPU採用16nm製程工藝，以6 GHz以上的速度運行，已經落地商用。據其高級副總裁兼CTO Chris Nicol介紹，新一代7nm DPU將引入MIPS技術，並採用高帶寬記憶體HBM（High Band Memory），預計在明年發布。

還有一家十分神秘的創企Cerebras System，它於2016年在美國加利福尼亞創辦。即便它至今未發布任何產品，這並不妨礙它常常被與芯片巨頭們相提並論。

Cerebras的創始團隊大多來自芯片巨頭AMD。其聯合創始人兼首席CEO安德魯·費爾德曼（Andrew Feldman）此前曾創辦SeaMicro，這是一家低功耗伺服器製造商，在2012年被AMD以3.34億美元收購。此後，費爾德曼花了兩年半的時間爬上了AMD的副總裁之位。

在三輪融資中，Cerebras籌集了1.12億美元，其估值已飆升至高達8.6億美元。如今，Cerebras仍處於秘密模式，據相關人士透露，其硬體將為“訓練”深度學習算法量身定製。

Cerebras使用深度學習加速器進行神經網絡訓練和推理專利

2017年4月成立的Groq創始團隊更是搶眼，來自谷歌TPU十人核心團隊中的8人。這家創企一出場就雄心勃勃，官網顯示器芯片算力將能達到400 TOPS。

SambaNova Systems比Groq晚7個月成立，總部位於加州Palo Alto，創始人包括兩位史丹佛大學教授Kunle Olukotun和ChrisRé和一位老牌芯片公司（Sun前任開發高級副總裁）高管。

其A輪融資由谷歌母公司Alphabet的風險投資部門Google Venture（GV）領投，這是GV首次對人工智能芯片公司進行投資。今年4月，英特爾投資宣布向14家科技創業公司新投資總計1.17億美元，SambaNova Systems也在名單中。

3、其他創企：英國獨角獸Graphcore最受青睞，多數芯片尚未推出

除了中美外，其他地域的AI芯片創企也在蓄勢待發。

最被看好的是一家資金雄厚的英國獨角獸Graphcore，成立於2016年，估值達到17億美元，累計融資3.12億美元。這家創企堪稱巨頭收割機，投資陣容很強大，包括紅杉資本、寶馬、微軟、博世和戴爾科技。

這家公司打造了一款專為機器智能工作負載而設計的智能處理單元（IPU），採用支持片上互連和片上存儲，從邊緣設備擴展到用於數據中心訓練和推理的“Colossus”雙芯片封裝。

Graphcore在官網上如是寫道：我們的IPU系統旨在降低在雲和企業數據中心加速AI應用程序的成本，與目前最快的系統相比，將訓練和推理的性能提高多達100倍。

在去年年底的NeurIPS活動中，Graphcore展示了一個示例配置RackScale IPU-Pod，包括32個1U IPU-Machines，每個由4個Colossus GC2 IPU處理器組成，提供500 TFLOPS混合精度計算，超過1.2GB的處理器記憶體以及超過200TB/s的記憶體帶寬。

Graphcore IPU-Pod racksale系統

另一家2016年成立的以色列創企Habana Labs，在去年9月的AI硬體峰會上宣布已經準備推出其首款用於推理的AI芯片Goya，它顯示了在Resnet50圖像分類數據庫中每秒分類15000張圖像的吞吐量，比NVIDIA的T4設備高出約50％，延遲時間為1.3ms，功耗僅為100 W。

其最新7500萬美元B輪融資（2018年12月）由英特爾風險投資公司領投，資金將部分用於研發第二款芯片Gaudi，該芯片將面向訓練市場，據稱訓練性能可線性擴展到1000多個處理器。

印度AlphaICs公司也是在2016年成立，正在設計AI芯片並致力於AI 2.0，希望通過該系列產品實現下一代AI。

AlphaICs的一位聯合創始人之一是有“奔騰芯片之父”稱號的Vinod Dham，他與一些年輕的芯片設計師們合作打造了可執行基於代理的AI協處理芯片——RAP芯片。

Dham表示，AlphaICs芯片在處理速度上相較競爭對手更有優勢，並稱當前我們看到的大多屬於弱AI，而他們可以被稱之為“強AI”。

按照Dham的說法，RAP芯片有望在2019年年中推出，“希望為真正的AI創造一個大爆炸”。

Tenstorrent是位於加拿大多倫多的創企，由兩位AMD前工程師Ljubisa Bajic和Milos Trajkovic創辦，核心團隊大多來自NVIDIA和AMD，研發專為深度學習和智能硬體而設計的高性能處理器。

去年早些時候，這家公司獲得來自Real Ventures的種子輪投資，不過至今仍處於秘密模式。

4、獨特戰隊：光子AI芯片

在面向雲和數據中心領域的硬體勢力中，一支特別的戰隊正受到國內外科技巨頭的青睞，它就是光子AI芯片。

和常規芯片不同，這些芯片採用光子電路來代替電子傳輸信號，他們比電子電路擁有更高的傳輸速度、更低的延遲和更高的吞吐量。

2016年，MIT研究團隊打造了首個光學計算系統，該成果於2017年以封面文章的形式發表在頂級期刊Nature Photonics雜誌。正是這篇論文，在全球範圍內啟發更多人投入到光子AI芯片的研發之中。

僅是這一MIT團隊，就在2017年孵化出Lightelligence和LightMatter兩家美國公司。

Lightelligence在2018年2月拿到百度風投和和美國半導體行業高管1000萬美元種子輪融資，LightMatter在2019年2月拿到由谷歌母公司Alphabet旗下的風險投資部門Google Ventures領投的2200萬美元B輪融資。

Lightelligence稱光子電路（Photonic Circuits）不僅能在雲計算領域作為CPU的協處理器加速深度學習訓練和推理，還能用於要求高效低能耗的網絡邊緣設備。

今年4月，Lightelligence宣布成功開發出世界第一款光子芯片原型板卡（Prototype），其光子芯片已與谷歌、Facebook、AWS、BAT級別的客戶接洽。

LightMatter同樣重點面向大型雲計算數據中心和高性能計算集群，他們曾打造出2個早期的芯片，其中一個芯片包含超過十一個晶體管。

受MIT那篇論文的啟發，2017年，國內第一家光子AI芯片創企光子算數由來自由清華大學、北京大學、北京交通大學等10所高校的博士生創立。

這家公司在2018年9月獲得天使輪融資，據稱其光子芯片的性能是電子芯片的1000倍，而功耗只有電子芯片的1%。

就在本月，比爾蓋茨也開始投資AI芯片，而且投資的是同樣研發矽光技術的Luminous。其他投資者還包括Uber聯合創始人Travis Kalanick的10100基金，以及現任Uber CEO Dara Khosrowshahi。

Luminous目前僅有7位成員，但它的胃口可不小，目標是為包含谷歌最新的Tensor Processing Unit AI芯片的3000塊電路板創建一個替代品。它們採用的方法借鑒了其聯合創始人Mitchell Nahmias在普林斯頓大學的早期神經形態光子學工作。

現在這幾家創企共同存在的問題是，不清楚多久能發布首款量產的光子AI芯片，以及這些芯片的實際應用效果能否真正取代電子芯片的位置。

五、當前雲端AI芯片主要挑戰

如今切入雲AI芯片市場的玩家已經有數十家，不過由NVIDIA主導、多家半導體巨頭分食的軟硬體和服務市場大體格局依然比較穩定，產生新的格局變動絕非一件易事。

1、粥多僧少，聚攏效應明顯

對於芯片行業來說，足量的產能至關重要。

半導體巨頭可以實現十倍、百倍的產能，而創企很難在創業初期就做到這一點。現在的創企多為IC設計廠商，如果他們想要成為像英特爾、三星那樣“自給自足”的公司，可能需要花數十億美元不止。

經過2015-2016年的半導體行業整合浪潮後，近兩年半導體並購潮正在逐漸“退燒”，大公司對芯片創企的投資或收購行動會更加謹慎。

2、人才爭奪愈演愈烈

雲端AI芯片的核心競爭力在於人才。

從當前市場上較受關注的雲AI芯片公司來看，它們的研究團隊多是在芯片巨頭有超過十年從業經歷的行業老兵，而且往往有帶頭研發出相關成功產品的經驗。

無論是半導體巨頭還是跨界造芯的科技巨頭，基本上都在走兩種路徑，一是投資並購成熟的芯片公司，另一種就是從挖走其他大公司的芯片高管。

3、創新難+落地難

英特爾研究院院長宋繼強曾經向智東西表示，AI芯片的未來一定是多樣化，不同種類的產品滿足不同功耗、尺寸、價錢的要求，AI一場馬拉松，現在這場比賽才剛剛開始。

現階段，入局雲AI芯片領域的絕大多數巨頭和創企都在打創新的招牌，包括創新的架構、存儲技術以及矽光技術等。

由於對推動深度學習的新型計算資源的需求激增，許多人認為這是初創企業從巨頭和投資機構手中爭取資金的難得機會。

儘管玩家正在增多，打出的旗幟也趨於多樣化，但就目前而言，真正落地量產的創新硬體還很有限。雲端AI芯片面臨的困境仍有很多，比如計算機體系結構普遍存在的摩爾定律難以維系和半導體器件方面的瓶頸。

研發芯片的過程可能需要數年時間，目前大部分硬體仍在開發中或在早期試驗計劃中進行。因此，很難預測哪些企業會實現承諾的性能。

結語：三股勢力，決戰雲端AI芯片之巔

總體來看，雲端AI芯片市場正逐漸分成三股勢力，以NVIDIA、英特爾等為代表的半導體巨頭，以谷歌、華為等為代表的中美科技巨頭，和以寒武紀、Groq等為代表的芯片創企。其中，半導體巨頭和芯片創企面向主攻通用芯片，而跨界造芯的科技巨頭以及AI創企依圖暫時不對外直接銷售。

從應用領域來看，儘管GPU的高能耗遭到業界越來越多的吐槽，但因其無與倫比的並行運算能力，使得雲端AI訓練領域至今尚未出現能與NVIDIA GPU分庭抗禮的玩家。挑戰這一領域的玩家主要是傳統芯片巨頭和創企，跨界的科技巨頭有谷歌、百度和華為，主要採用的架構是通用GPU和ASIC。

在更注重能耗、時延、成本、性價比等綜合能力的雲端AI推理領域，入局的玩家相對更多，FPGA和ASIC的優勢相對高於GPU。擁有全面AI芯片布局的英特爾勢頭正猛，其他玩家也不遑多讓，中美幾大互聯網巨頭基本上全部加入戰局，但部分巨頭的芯片研發進展尚未可知。

關於提升造芯實力，多數半導體巨頭和科技巨頭均選擇了投資、並購和挖芯片大牛的捷徑，從而直接得到成熟芯片團隊的輔助，快速補足人才和業務的空缺。而對於創企來說，獲得投資界青睞的基本都具備兩大因素——富有經驗的創始團隊和擁有創新技術的產品，從落地進程來看，我國芯片創企的步伐可以排在世界前列。

就目前來看，絕大多數AI應用仍然依賴於在雲端的訓練和推理，在訓練領域，NVIDIA穩固的生態體系依然是難以撼動的一座高山，在推理領域，更是群雄逐鹿能者勝。隨著AI更加廣泛地落地到各行各業，雲端AI芯片市場也會獲得更大的增長空間，但這篇市場未必容得下這麽多的玩家，資金、器件瓶頸、架構創新、適配快速改變的AI算法以及構建生態系統都是擺在這些企業面前的難題。什麽是完全適合雲端訓練和推理的AI芯片形態，也尚未出現統一的結論。