馬斯克不為人知的野望，他的芯片會攻陷IT界？

關注並標星電動星球News

每天打卡閱讀

更深刻理解汽車產業變革

————————

距離 2019 年第一季度結束還有 10 天，特斯拉說過會在一季度內量產的 Autopilot 硬體 3.0，依然不見蹤影。

事實上，早在 2017 年 12 月 8 日舉辦的神經信息處理系統大會（ NIPS ），馬斯克就已經確認了特斯拉“正在打造世界上性能最高的消費級 AI 芯片”，而這款芯片將會搭載在 Autopilot 硬體 3.0 上，具備“全自動駕駛能力”。

雖然硬體 3.0 還沒有真正面世，但這並不影響我們根據此前已經披露的消息，在一定的程度上推測這款來自車企的芯片，到底有著怎樣的能耐。

我們的結論是：這可能是第一次出現車企反攻 IT 界的情況。

特斯拉的自研芯片，與全世界為敵？

目前最詳細的有關 Autopilot 硬體 3.0 爆料，來自於一位特斯拉論壇的大牛——Very Green。今年1月，他在特斯拉論壇中曝光了代號為“Turbo”的特斯拉深度學習自動駕駛芯片主要的硬體參數。

與硬體 2.0 和 2.5 的框架（ SOC+GPU ）類似，負責車機以及中控顯示/操作的部分基於三星的獵戶座7系列SOC打造，擁有最高八個 ARMCortex A72 內核以及最高 12 個 MaliT880 GPU 核心。

看到這裡，相信不少了解手機芯片的朋友要開始吐槽了：7 系列 SOC 可是 2015 年的老古董，理論性能甚至比不上特斯拉硬體 2.0，特斯拉拿這種芯片做硬體 3.0，這不是開玩笑麽？

實際上，根據 Very Green 大佬的爆料，特斯拉自研芯片的核心部分，是與三星 SOC 通過 PCIE 總線連接的四個不知名芯片——代號叫 TRIP。而這四個 TRIP 芯片最重要的，就在於第一個字母 T——Tensor（張量）。

前排提示，下文可能會非常催眠。

這個張量不是做麻辣燙的，而是現代機器學習的基礎。它的核心是一個數據容器，多數情況下，張量代表著數據的集合，根據維度的複雜程度，有1D、2D、3D張量，一直到無限 D 張量之分。

專門用來處理張量數據的芯片，我們把它叫做TPU——Tensor Processing Unit。TPU 也是目前最適合用於深度學習的芯片，甚至比GPU更加好使。

為什麽呢？我們來舉個例子——你是怎麽分辨出一個人是男的還是女的？

一般情況下，穿著裙子的人是女性的可能性會更高，而穿著褲子的人則更有可能是男性。但在現實生活中，我們往往還需要結合很多個維度去判斷——有沒有喉結，有沒有其他第二性征，聲音的粗細程度，頭髮長與短，甚至臉型和四肢粗細等等。

不僅判斷的維度很多，不同維度在大腦決策中所佔的權重都是各不相同的——比如現在穿不穿裙子或者褲子，在男女性別判斷這個問題上所佔的維度已經不如以前高了，這些判斷問題需要參考的不同維度（包括不同維度所佔的權重，也算一個額外的維度），就是 N 個 D 的張量。

張量的問題解釋清楚了，但為什麽 TPU 在應對深度學習的時候比 GPU 更好用呢？

再舉一個更簡單的例子：10 件上衣和 10 條褲子兩兩搭配，一共會出現多少種方案？答案是10x10＝100種，如果在加上 10 雙鞋子，那就是10x10x10＝1000 種。結合上面有關張量的解釋來說就是：深度學習的過程，某種程度上就是在算乘法。

可同樣是算乘法，GPU 和 CPU 在進行深度學習的時候，都存在瓶頸，這個瓶頸是有專業名詞解釋的——馮諾依曼瓶頸。

馮諾依曼瓶頸來源於馮諾依曼架構，這也是現代電子計算機的基本框架，由於馮諾依曼架構將處理核心的指令集和需要處理的數據統一放在一個緩存裡面，所以在處理器性能飛速發展的今天，緩存的讀寫速度出現了跟不上處理器運行速度的瓶頸。

TPU 的性質正好不會出現馮諾依曼瓶頸——TPU 設計之初的目的就是要全心全意進行深度學習，而不是像 GPU 一樣進行大量通用運算，所以 TPU 的核心不需要為各種各樣的指令作適配，術業有專攻，講的就是 TPU。

如果特斯拉真的研發出了自己的 TPU，那就意味著馬斯克再一次站在了世界的對立面——這個星球上有在推進自動駕駛研發的汽車製造商，沒有一家在使用 TPU 進行自動駕駛深度學習，更別說自己下場造芯片了。

社會你馬哥，騷操作賊多。

還有誰在做 TPU？為什麽要做 TPU？

沒有人能夠斷定，具備先天優勢的 TPU 一定會比 GPU 更適合自動駕駛，但這個世界上自動駕駛技術的領頭羊，以及這個世界上自動駕駛技術的跳票王，都已經表現出了傾向於 TPU 的意思。

跳票王說的自然是馬斯克——畢竟曾經的第一特粉，蘋果公司聯合創始人沃茲尼亞克都因為全自動駕駛功能連續跳票，說過“再也不相信馬斯克有關自動駕駛的話了”。而領頭羊，自然就是 Waymo，或者說，Waymo 背後的谷歌。

2015 年，谷歌發布 TPU 1.0，並同時發布針對 TPU 適配的深度學習框架 TensorFlow。但此時的 Waymo 還只是谷歌X實驗室的一員，直到 2016 年 12 月才從谷歌獨立出去，與谷歌同樣重組至 Alphabet 旗下。

到了 2018 年的谷歌開發者大會，Waymo 正式宣布採用 TPU 3.0——這是谷歌最新一代的 TPU，宣稱用 64 個 TPU 3.0 模塊（256 個完整的 TPU 核心）搭建的伺服器群就可以達到100Petaflops（Peta 表示千兆次，flops表示浮點運算精度，1 petaflops表示一千兆次浮點運算）的深度學習運算速度——作為對比，2016 年稱霸世界超算的神威·太湖之光，深度學習運算速度也才125 Petaflops。

另一個很重要的問題是——特斯拉做 TPU 的目的，真的只是為了自動駕駛嗎？

“特斯拉的宏偉藍圖”，相信在馬斯克寫下這些文字的 2006 年，沒有誰會相信他說的話——造車才是最賺錢的買賣，你居然說造車只是為推進能源革命服務？

可 13 年後的現在，馬斯克已經走到了給這幅藍圖著色的最後一步，特斯拉也不僅代表著“可能是世界上最好的電動汽車（廣告法還是要遵守的）”，而是“全套的新能源解決方案供應商”。

同樣的情況，放在深度學習芯片上，也一樣。舉個栗子，什麽樣的電腦是性能最好的電腦？

標準千萬個，通俗就一個——能流暢運行所有遊戲的電腦，大多數場景下就是性能最好的電腦。

把問題變一下可以是這樣的——什麽樣的深度學習芯片是性能最好的？按照目前的情況，答案應該是“能夠應付全自動駕駛的深度學習芯片”。

我們在上面討論過張量的問題，“如何分辨一個人是男是女”，這是深度學習中一個很典型的例子，而這個場景，只是自動駕駛過程中一個極為細小的分支。在自動駕駛過程中，車輛不僅要分辨出前面的是不是人，是男的還是女的，還需要通過對動作和周圍環境的分析，判斷出 TA 正在做什麽，下一步會做什麽，而車輛本身應該做什麽。

簡單點總結就是——自動駕駛需要像人腦一樣解構所感受到的整個世界，而遊戲帶來的性能要求正好相反——它要求計算機像人腦一樣再現所感受到的整個世界。

也就是說，證明了全自動駕駛能力的深度學習芯片，可以像高性能計算機芯片一樣，在各個不同的領域銷售。

谷歌已經這樣做了——甚至在應用於 Waymo 自動駕駛測試車之前，谷歌就已經將 TPU 伺服器群通過雲服務的方式，出租給全世界需要應用深度學習的個人、實驗室，甚至企業。

特斯拉會這樣做嗎？馬斯克會不會實現“世界上性能最高的消費級深度學習芯片”這個牛皮，然後讓特斯拉成為一家新的芯片巨頭？

等唄，誰讓優秀的企業都愛跳票。

（完）