每日最新頭條.有趣資訊

新思科技Chekib:AI芯片架構創新面臨四大挑戰

智東西(公眾號:zhidxcom)文 | 司北

3月15日,由智東西主辦,AWE和極果聯合主辦的AI芯片創新峰會,在上海成功舉辦!本次峰會報名參會的觀眾覆蓋了近4500家企業,到會觀眾極為專業,其中總監以上級別佔比超過62%,現場實際到會人數超過1800位。

大會現場,20位人工智能及AI芯片業界翹楚共聚一堂,系統的探討了AI芯片在架構創新、生態構建、場景落地等方面的技術前景和產業趨勢。

探境科技創始人兼CEO魯勇

憑借其創新的存儲優先架構(SFA),探境科技去年完成A輪上億元融資,是中國新崛起的AI芯片新生力量之一。大會現場,探境科技創始人兼CEO魯勇進行了主題為《基於存儲優先架構的AI芯片使能前端智能》的演講。

由於AI神經網絡數據量較大,具有高並發、高耦合等特性,引發了AI芯片高帶寬存取、以及數據間的相關耦合性等問題,所以在馮諾伊曼架構之下,目前AI芯片普遍面臨了“存儲牆”問題——AI計算資源豐富,但存儲及數據搬運效率低下。

魯勇認為,本質上AI計算的核心問題是“如何更高效地將數據輸送給計算部門”,而並不是如何增加更多AI計算資源。

因此,去年探境發布了存儲優先架構(Storage First Architecture,簡稱SFA),這是一套不同於馮諾伊曼的AI芯片架構,它這套架構從數據層和計算層中間,通過數據航線,進行節點間的數據搬移。

這套架構的本質是圖計算,控制器通過知道在動態運行過程中,哪些數據和哪些算子需要有一定的相關性,從而構建更加合理的網絡路徑。

SFA架構由此帶來的優勢包括:數據訪問量能降低10到100倍、存儲子系統的功耗能下降10倍以上、28nm條件下計算資源利用率高達80%、芯片面積極大縮小。

魯勇還表示,SFA還可以做到通用型的AI芯片,不僅可以支持任意已知的神經網絡,等同於GPU的兼容性,還對神經網絡的參數、數據類型沒有限制,能夠支持多種應用場景,可以真正符合商業應用。

附探境科技創始人兼CEO魯勇演講實錄

魯勇:大家好!剛才眾多演講者給大家分享了很多AI在各種應用場景的例子,包括從雲端的替代GPU作為提高能效比的工具,從雲端到終端的延展,終端包括從小到可穿戴,大到安防、自動駕駛等應用場景。所以我在這裡就不重複這些應用場景的情況。

最近有很多AI芯片層出不窮地往這個領域在進展,這裡有很多機會,目的是能讓AI芯片更加強大、更加易用、更加低功耗。今天上午魏老師提到了AI芯片從0.5到2.0的演進,這當中有大量的創新需要做,基於非常基礎層的芯片底層架構,我在這裡分享一些探境科技在這方面的創新。

去年探境發布了存儲優先架構(Storage First Architecture,簡稱SFA),這一架構有非常高的領先度,由於很多朋友比較關心和關注,我們今天會先簡單回顧一下SFA是什麽。

先預告一下,下面的內容可能會比較偏硬核一些,會談到比較深的技術要點。深度學習給芯片設計帶來了很大挑戰,深度學習的數據量非常大,包括訓練好的權重和運行的動態中間數據。

神經網絡的運算主要看到的是卷積,左邊是單層的卷積,但實際上在神經網絡上真正被用到的是右邊的立體卷積。立體卷積是多個通道的二維卷積,有非常強的耦合性,其數據的連接關係以及重複的使用給我們帶來很大的問題。

通常做卷積運算的第一種方法是直接進行卷積運算,設計一個比較硬核的加速器,這種方式在傳統的通信芯片設計裡會採用,還有一種方法是採用數學變換的方式,把卷積轉化為矩陣,這樣可以更加通用地應對不同卷積的尺寸。

在這幾種常見的方法中,我們提到的問題都存在,包括高並發、高耦合,大量的數據引發了高帶寬存取、以及數據間的相關耦合性,帶來了一個“存儲牆”的問題。

在現在的學術界、工業界,“存儲牆”都是熱點的話題,我們也看到了很多使用試圖破解“存儲牆”的不同方法。“存儲牆”帶來的瓶頸是性能跟功耗兩方面的。最開始需要通過外存和記憶體之間交換數據,這一步功耗比較大,第二步是在記憶體的數據排序,如何高效地填入到計算單元,這是第二個非常重要的難點。

這個問題我們可以簡化抽象成用EU是計算單元,Memory是所有的存儲。本質上AI計算的核心問題是“如何更高效地將數據輸送給計算部門”,而計算並不重要。

這裡有幾個具體的困難大家可以探討一下:

1、數據量大,帶寬要求高,數據是不能完全存在片內的,存在片外會有DDR不僅會有功耗問題,我們做SoC的知道,DDR帶寬一向是大家爭奪的重點,所以系統瓶頸會產生。

2、數據耦合性比較高,很大程度上數據是重複使用的,重複使用的數據會進一步加大功耗。

3、其實更大的困難是第三點,數據的使用複雜度很高,很多朋友在設計AI芯片的時候,數據的排序從不同的網絡層之間切換的是非常困難的。

我們總結一下現在常見解決方式:

1、增加計算資源。剛才提到了,這一方法只能增加計算的效率,但是沒有辦法破解“存儲牆”。

2、通過軟體的方式編輯數據,讓數據的存儲方式利於硬體直接調取。但是這種方法對於中間的動態數據流是無法應對的。

3、通過硬體整合更大規模的算子。這一方法有些困難,剛才講到神經網絡有很多不同的配置,這些配置對神經網絡很難做到全部兼容。

4、在計算資源內部放入少量的存儲資源。但是存儲資源仍然有瓶頸,少量的存儲資源放不了太多的數據。

5、還有現在比較火的一種方式是把計算資源放到記憶體內部,一般叫“存算一體化”,這當中也有很多問題沒有被解決,首先它需要非常大的片上存儲,只有大量的片上存儲才能夠把整個神經網絡模型都放進去;第二基本上做存算一體的大部分都還是針對全聯接層構成的DNN或feature map非常小的卷積層進行設計,對這些比較複雜的卷積神經網絡是否能夠支持,也是要打問號的。

6、還有一種方法是在算法上設計低精度的網絡,降低對存儲的需求。這種方式看上去是解決了一定問題,但也有場景受限的情況。

總結一下,如果主要關注在計算方面,即使芯片提高了再大的並行度,它對AI計算的效能提升也是有限的。這種架構我們稱之為“類CPU架構,或者“馮諾伊曼架構”。這種架構是由計算驅動存儲。因為這種計算資源在神經網絡上是比較富余的,用富余的資源驅動稀缺的存儲資源,顯然沒有辦法帶來很好的收益。

探境科技重新思考了存儲和計算的關係,以存儲來驅動計算,做了一套完全不同於馮諾伊曼的架構。

這套架構從數據層和計算層中間,通過數據航線,數據作為節點和計算節點,這個過程是一個數據搬移的過程,因為我們可以認為所有的數據都有自己的生命周期,它在生命周期裡可能會和其他數據發生相應關係,我們以數據作為優先可以考慮到數據帶動算子,而非由算子找數據的關係。

這套關係是由Scheduler控制器來控制的,這樣一個CPU可以知道在動態運行過程中哪些數據和哪些算子需要有一定的相關性,從而構建出一張相對比較合理的網絡。

所以這裡本質上來講深度學習的計算是圖計算,這個方向上我們對此有很高的認知。

舉個例子,像曾經大家做通信算法的時候都會做到傅裡葉變換,做時域和頻域的變化,很多問題在時域裡無法解決的時候,你走到頻域裡就迎刃而解。所以神經網絡的本質問題是圖計算問題,當你走到圖計算的高度的時候,很多問題會迎刃而解。

SFA能帶來什麽好處呢?首先數據訪問量能降低10到100倍,所以存儲子系統的功耗能下降10倍以上;在28nm條件下,系統能效比超過4 TOPS/W,計算資源利用率也很高,超過80%,我們可以看到現在公開的很多AI架構芯片資源利用率都只在50%上下浮動。另外SFA面積非常小,在28nm工藝條件下的Post Layout面積是每TOPS 0.5平方毫米。

同時,SFA可以做到通用型的AI芯片,可以支持任意已知的神經網絡,等同於GPU的兼容性。很多設計芯片的朋友都知道,想要做一款通用型的AI芯片非常非常困難,有的只能支持幾個神經網絡,有的會在神經網絡的參數上有非常大的限制,只能支持一些,有些可能就不支持了。

SFA對所有的神經網絡參數、架構沒有任何限制,對數據類型也任何限制,包括INT8、INT16、浮點16、浮點32、甚至包括一些自定義的浮點,全都可以支持;並且對於深度學習裡所講到的稀疏化的數據,也是可以自適應去支持,不用事先做任何的預處理。我們知道通用型對芯片設計是非常重要的,因為我們做芯片設計的人通常所面臨的場景是非常廣泛的,只為一個場景做一個具體的芯片可能成本就太高了。

SFA的易用性也非常高,工具鏈使用很簡單,對用戶來說網絡不需要重新訓練,這也是真正用戶使用上的頭疼問題,需要拿著網絡重新訓練,但是SFA的網絡可以直接拿來使用不用訓練,數據的精度設置靈活度非常大,甚至可以做到每層做自己的定義數據精度。

因此,有這樣的一些優點,所以可以考慮做出當前沒有實現的功能,我們既可以做一些訓練,也可以做推理,終端能看到更多的是推理的芯片,SFA也可以做雲端的訓練和推理,無縫銜接,更重要的事情是在終端可以做到終端推理和終端的一些本地訓練。

最近大家對隱私的要求也越來越高,很多用戶本地所拍攝的圖像是不太願意上傳到雲端,但他又希望能夠在自己不斷地使用過程中通過自己的訓練能夠讓自己的模型變的更加精確、更加適合場景。這樣的話需要一些本地訓練,或者是需要一些協同性的訓練,和其他用戶一同訓練更好的模型,採用這樣的架構功能就可以完成。

我們認為這是真正可以符合商業應用的AI芯片,其他大量的AI芯片會有局限性於固定場景的使用。

基於SFA對所有終端的應用場景都可以支持,語音芯片、機器視覺芯片、自動駕駛芯片等,這些場景的核心點都在於AI計算,如果AI計算能夠超出現有的水準達到更高的能效比、更好的成本控制,在半導體方向上創新永遠是推動行業發展的原動力,並且能夠帶來源源不斷的提升。有這樣的SFA的架構應該能夠給所有終端芯片都有新的收獲,包括從成本上、功能上、易用性上,都會有新的創新。

謝謝大家!

獲得更多的PTT最新消息
按讚加入粉絲團