每日最新頭條.有趣資訊

後通用芯片時代:專用芯片興起背後的經濟學

新智元推薦

作者:徐凌傑

【新智元導讀】最近,MIT學者Neil Thompson 和 Svenja Spanuth發表了一篇名為“The Decline of Computers as a General Purpose Technology”[1]的working paper,重點分析了為什麽摩爾定律的終結與深度學習的興起會加速計算技術的專用化趨勢。本文就是對這篇大作的解讀。

我和Neil有一面之緣,他在伯克利哈斯商學院的博士課題就是研究IT產業對社會經濟和生產力的影響。50多頁的論文讀著一氣呵成,遂整理讀書筆記加上一些我的注解投稿給唐杉老師,以饗讀者。

眾所周知,生產率(productivity)是衡量經濟增長和經濟水準的一個很重要的因素。計算機自20世紀中葉誕生以來用前所未有的速度改變著我們的生活,以美國為例,計算機技術帶動了自1974年以來的1/3生產率增長,居功至偉。

從產業發展的角度來看,通用計算的進步與普惠離不開堅實的經濟後盾:一項新技術通過商業上的成功取得收益,然後繼續投入創新項目進一步擴大生產;科技的進步讓我們有機會用更加低廉的價格買到更強的算力。同時,經濟學原理告訴我們,需求(demand)的增長會繼續拉動供給(supply),這樣的良性循環在過去幾十年裡不斷地推動著通用計算產業的進步,CPU也成了芯片的代名詞。Intel公司的先知GordonMoore先生預見性地提出了以他名字命名的摩爾定律,幾十年增長氣勢如虹。

然而,當摩爾定律走向盡頭[2],通用計算發展的步伐也不得不逐漸放緩。以2008年為轉折點,芯片的一個重要衡量指標性價比(performance/dollar)從之前的每年平均48%增長降低到了10%以下。

近年來,我們正看到一些芯片設計正在朝著專用化的方向演進。對比CPU,專用芯片的適用範圍很窄,但在特定領域能做得更好,性能達到數十倍甚至百倍的提升。我們看到以深度學習和比特幣挖礦為代表的新技術的興起,都將加速計算芯片技術專用化的進程,那些能得到專用芯片加速的應用將會在“快車道”上越走越快,而那些不能得到加速的應用將會隨著通用計算的沒落而一起停滯不前。

非常有意思的是,Neil還預言,這樣的專用化趨勢會最終影響到計算技術的進步,並進而影響到社會經濟的發展。我深以為然,隨著信息和資本流動全球化,科技發展的馬太效應會越來越多地影響到社會經濟的兩極分化。這樣的蝴蝶效應值得更多的有識之士關注。

通用芯片歷史:“天下大勢,分久必合,合久必分”

在過去的幾十年裡,絕大多數人都在適用高度同質化(homogeneous)的x86計算機,而CPU的快速發展迭代能夠把技術紅利集中地、“有感知地”釋放給大眾。然而,當計算系統變得更加專用化之後,分層就會顯現,異構(heterogeneous)的進程就會加快。在進一步討論其中的經濟學原理之前,我們先來回顧一下芯片發展的一些歷史。

1969年,一家叫Busicom[3]日本公司打算為其計算機(calculator)產品線重新設計一款芯片。在這之前,計算機產品都是高度專用化的設計,即高效地做好規定操作;由於專用芯片缺乏靈活性,芯片設計完成之後就不能增加新的功能了。Intel作為一家剛剛成立一年的初創公司進入了Busicom的視野。偉大的公司自然有其過人之處,Intel從一開始就從戰略上選擇做一款可編程的通用芯片,並與Busicom一拍即合。這就是第一個通用處理器4004的開始,通過重寫軟體實現各種不用的應用功能極大地釋放了生產力,也從此開啟了Intel的芯片王朝。

從4004開始,CPU的性能至今已經有了超過40萬倍的提升。從2000到2010年,PC機的年增長率高達9%(遠高於同期美國GDP增長)。截至2018年,全球PC機的保有量超過20億台。而這些成就的取得並不是沒有代價的,根據Intel的SEC filling[4],在過去十年總共投入了$1,830億美元用於研發和Fab的建設。放眼世界,由於新的晶圓生產線成本居高不下,有能力生產最前沿芯片製程的廠商,也從2000年的25家驟減到如今的4家。從2014年起,Intel的固定成本(R&D + Additional PP&E)已經開始超過了其可變成本(COGS = Net Revenue – Gross Margin)支出(見下圖財務報表)

正是由於成本結構的變化,Intel在2016財年的10-K filing裡面明確了將放緩科技迭代,並從之前的tick-tock轉向process-architecture-optimization模式[5]。一場變革正在悄然醞釀之中,最明顯的就是TOP500計算機中使用專用加速芯片的比例正在逐年提高。

專用加速芯片的興起

Domain Specific的專用芯片是計算機體系結構黃金時代大複興的四個方向之一,唐杉老師的專欄(

黃金時代

,StarryHeavensAbove AI芯片文章導讀)已經講了好多專用芯片的好處,此處不再贅述。總結一下專用芯片適用的四個主要場景:

1. 計算能夠大量並行處理的(parallelism)

2. 計算pattern是非常整齊的(regularity)

3. 不需要過多訪問memory的(locality)

4. 可以用更低精度(precision)等效替代的

由於專用芯片不需要在通用性和兼容性上做太多妥協,往往在性價比和能效上(energyefficiency)上更優。

而一款專用芯片的成功與否和其開發生態也息息相關。就拿我讀研究生時候同時期出來的Cell和GT8800為例,雖然Cell芯片在很多技術點上有可取之處,又成功在PS3遊戲機上落地,但由於非常難開發(還有人記得史丹佛開發的Sequoia 麽?),三年之後不得不灰溜溜得退出市場,從此沒有第二代(插曲:記得當時有恐怖分子買了大量Playstation後來被截獲,原本準備拆了當導彈芯片的,那真是有勇氣啊!);而NVIDIA的GT8800配合CUDA橫空出世,不僅一舉為皮衣教主在十年後的AI賽道上封神打下了堅實的基礎,也讓我等晚輩看到了並行計算的光明前景由此入了GPU的行。而之後,ImageNet挑戰賽讓GPU以算力打開了深度學習新局面的故事想必大家也都已經耳熟能詳。現在炒得火熱的AI芯片們有多大的決心做生態做軟體,也將很大程度上決定他們未來的命運。

通用和專用之爭

在比較芯片之前,我們再來看歷史上另一個關於通用和專用的爭論,或許能對我們現在討論的芯片專用化的趨勢有所啟示。

20世紀之初,家用廚房用具開始逐漸電器化,而小型馬達的價格在那時還是居高不下。以一個帶電動馬達的縫紉機為例,其1917年的售價高達$35美元,相當於一戶普通人家一個月28%的收入。Hamilton-Beach公司看到了用戶的痛點,並快速設計出了一款售價只有$11.5美元,並能匹配大部分家電的通用馬達。

按照通常的邏輯發展,通用馬達應該成為標準。根據之前提到的產品改進->擴大市場->追加投資的理論,似乎Hamilton-Beach公司在不斷改良降低成本之後,通用馬達應該成為家家戶戶電器裡必備的裝備。

然而事實的發展並非如此,在100多年後的今天,我們看到家裡電器的馬達並非是通用的。我們的家電設備因為功率、體積和用途的不同,其馬達都是專用的!究其原因,Neil認為無非是兩邊性價比誰提高地快的問題(在同等的情況下理性人通常會願意選擇功能更多的通用產品),例如假設一個能帶動大功率攪拌機的通用馬達能比一個小電扇的專用馬達價格更低,自然會有閱聽人。然而,工程師們無法設計出一種既省錢又好用的通用產品。由於通用的馬達並不能給所有的產品帶來收益,相反大功率馬達價格premium居高不下,而低成本的馬達也同樣也有足夠大的市場,產品分層帶來的各種專用化最終戰勝了通用。

對於芯片行業來說,通用CPU借助摩爾定律高速發展在最初幾十年很好地回答了上面性價比的問題,而當摩爾定律的魔力不在之時,CPU則很難避免通用馬達一般的命運。

當我們把專用芯片的性能作為常數,而通用芯片的進步模擬成一個階梯函數,則通用和專用芯片的優勢對比可以簡單地用下圖模型表示(Neil在文中還推理了一個比較複雜的數學公式,這裡也不展開贅述)。藍色(通用佔優)和灰色(專用佔優)面積孰大孰小則表示應該選取那種芯片。

收益與經濟規模也有很大關係,根據Neil的複雜公式推理,如果一個專用芯片有10倍於通用的性能,那至少需要167,000塊芯片的出貨量來支撐;而如果僅有2倍的speedup,則需要至少有1百萬塊芯片來攤薄固定成本!且不論這個數學模型精確與否,比特幣礦機和TPU的出現已經能充分說明這類經濟規律的合理性-只要有足夠大的市場和足夠高的收益(性能提升),人們會毫不猶豫地搞專用化。

經濟規律和總結

芯片的專用化已經很好地在比特幣和深度學習的場景中展現,那讓我們來推演一下其中哪些經濟規律和邏輯在這場變革中起著主導作用,並不斷推波助瀾。

1. 如前文所述,能生產最先進製程芯片的廠商越來越少。這意味著每家廠商的平均市場份額從當年的4%提高到了25%,相當於年均14%的增長,行業的consolidation足以抵消成本上升帶來的影響。

然而,這樣的合並是不可持續的(如果按照之前的趨勢,再過不到10年,市場就只能支撐1家芯片製造商),這也就意味著為了攤薄更先進製程的生產線帶來的成本上升問題,製程的推陳出新將會變得越來越慢,而通用CPU所能享受到的技術紅利(階梯函數)也將大大受其影響。基於前文引述的財報數據,固定成本已經佔據了Intel成本結構的大頭,攤薄是個大問題–換言之,Intel當前10nm產線delay的問題真的是技術問題還是經濟問題,這個真的很難說!

2. 科技發展同樣遇到了瓶頸,大約10多年前,Dennard scaling[7]的失效已經預示著芯片的性價比提升無法持續。而三星最近的研究表明,隨著晶體管越變越小,部門晶體管成本已經抵達轉捩點不降反升了!當科技紅利無法持續,人們會越來越多選擇更成熟也更便宜的製程節點,這又反過來延緩了新技術的鋪開和成本攤薄。

3. 當通用CPU無法如之前那樣勢如破竹地提高性價比的時候,不自覺地階梯函數的收益就會往下降,而當越來越多的人大量選擇通過專用芯片來加速的時候,一個類似的關於專用芯片的良性循環周期也已開始。

總結一下,有這麽幾個論斷:

1. 通用CPU還會在未來相當長一段時間內作為一種成熟穩定、發展緩慢的技術而存在。

2. 未來的芯片和數據中心將會是全面異構的,GPU、AI芯片、FPGA和其他加速器都會是其中的一部分。

3. 那些不能很好被專用芯片加速的應用(例如已經被證明失敗的數據庫加速芯片)、那些雖然能夠被加速但無法大量落地的應用,以及那些不能利用雲的規模效應的應用,都將被遠遠地甩在後面。

後記

“天之道,損有余而補不足;人之道,損不足以奉有余。”

社會、經濟和科技發展到一定階段必然會導致兩極分化。那些時代寵兒們將會不成比例地獲取社會資源和享受福利的傾斜,而剩下的那些則很有可能持續陷入到不能自拔的“新常態”中去。如果社會的進步不能如CPU的高速發展一般為大部分人所“感知”,那社會體制的失衡就會愈發明顯,進而影響整體的經濟發展和進步。資本的逐利性和人們自我意識的覺醒會是一個持續的矛盾,只不過這次專用芯片這隻蝴蝶揮動了一下翅膀。

關於作者:

徐凌傑,加州大學伯克利分校MBA,現任阿里雲智能總監,負責包括GPU和AI芯片在內的異構基礎架構。他的團隊專注於AI架構與應用的軟硬體協同。2018年9月,他發布了深度學習專用測試基準benchmarks - AI Matrix[8]。在加入阿里巴巴之前,他曾在NVIDIA, AMD和三星電子擔任GPU項目的高級管理和架構師崗位。

參考文獻:

[1] Neil Thompson, “The Decline of Computers as a General Purpose Technology”, http://ide.mit.edu/publications/decline-computers-general-purpose-technology

[2] "AFTER MOORE'S LAW", https://www.economist.com/technology-quarterly/2016-03-12/after-moores-law

[3] https://en.wikipedia.org/wiki/Busicom

[4] “Annual Report and Form 10-K”,https://www.intc.com/investor-relations/financials-and-filings/annual-reports-and-proxy/default.aspx

[5] https://en.wikipedia.org/wiki/Tick%E2%80%93tock_model

[6] K Fatahalian,“Sequoia: Programming the Memory Hierarchy”,http://graphics.stanford.edu/papers/sequoia/sequoia_sc06.pdf

[7] https://en.wikipedia.org/wiki/Dennard_scaling

[8] AI Matrix, https://aimatrix.ai/

更多閱讀

獲得更多的PTT最新消息
按讚加入粉絲團