每日最新頭條.有趣資訊

為什麽超異構計算是下一場算力革命?

近年來,談到 AI 驅動的算力革命,一個不得不提的趨勢就是異構計算

異構計算(Heterogeneous Computing),指的是通過調用性能、結構各異的計算單元(CPU、GPU、各類專用芯片等等)以滿足不同的計算需求,實現計算最優化。

這一概念誕生於上個世紀 90 年代,但直到近幾年隨著人工智能技術落地不斷產生新的計算需求,需要更多地在性能、成本和功耗上進行平衡,這項技術的產業價值才真正爆發,也給芯片市場尤其是高端芯片市場創造了更多的機會:應用越來越多樣化,促使著通過多種芯片進行異構計算成為行業主流,業內普遍看法也認為,這種趨勢會繼續加速。

現在,有一家廠商希望讓芯片級異構計算技術的整合協調程度更上一個台階:英特爾正在押注“超異構計算”。

“傳統異構計算並不能滿足現在計算的要求。而超異構計算,已逐漸成為業界思考的一個趨勢”,在近日的一次採訪中,英特爾中國研究院院長宋繼強對 DeepTech 給出了英特爾對當下的算力演進方向的新判斷。

接下來的下半年到明年的時間,他們將通過其超異構計算產品、面向 PC 的“LAKEFIELD”驗證上述判斷,如果得到證明,英特爾將讓這個技術擴展到其更多的產品線中。

圖|LakeField 也是 10 納米產品之一(來源:英特爾)

兩大主流傳統異構計算式微

據了解,目前的的異構計算產品主要有兩種形態——分體式板卡一體化 SoC。前者是直接把不同的芯片在不同的板級連接起來,比如說通過 PCI-E,把 CPU 板和專門的做 AI 加速的板連在一起。後者可以將各種計算能力的加速內核放置到一個芯片中,這一整個芯片相當於一個處理節點,例如,14nm、22nm做出來的單芯片集成很多種不同的計算模塊(CPU、GPU、通信模塊、視頻處理的加速器)。

當下,產業應用在 AI 計算上主要有以下幾個需求:多種計算加速、time to market 的考量、可擴展性、開發難度、數據帶寬延遲、價格、訓練速度、推導實時性、能效比、體積。在上述需求中,兩種異構計算形態各有優劣。分體式板卡在技術上能夠更快實現,但是體積和功耗都比較大,而且板與板傳輸不如芯片內部設計帶寬高。一體化 SoC 在上述的大部分需求上相較有優勢,但在交付上需要消耗較長的時間。

圖|產業對 AI 計算的需求(來源:DeepTech)

英特爾認為,產業需求的多樣化,也愈發暴露上述兩種主要異構計算產品形態的短板所在,突破點在於超異構

目前,多功能、多架構的獨立芯片可以根據計算負載分成以下4種:標量計算,CPU 就是典型的標量處理器,即進行“A+B,B+D”這樣的運算;矢量計算,可以實現八個數一起算,常用於圖形計算;矩陣計算,即 4×4 或者 8×8 的塊同時進行計算,已經廣泛用在 AI 卷積神經網絡當中;空間計算,即運算的時候有靈活的空間處理架構,這個方面的代表是 FPGA。

而超異構計算,就是要把這幾種計算整合在一起達到“計算最優化”。英特爾認為,集合傳統異構計算的優勢,避開傳統異構計算的短板,即“超異構計算”的“超”所在

但“計算最優化”,可能還不足以打動客戶為這個聽起來十分複雜的新技術買單。對此,宋繼強表示,英特爾決定研究超異構計算,初衷亦是為了幫助客戶降低成本。

“因為現在的一大困境是,技術越往前發展,不斷往 10nm、7nm 演進,做出一款單一的、一體的 SoC 成本就會越來越高,如何對這些先進的計算單元進行整合又將成為芯片業共同的問題”,他說。

圖|英特爾研究院院長宋繼強在接受媒體採訪(來源:DeepTech)

超異構計算的 3 大技術關鍵:加速、封裝、統一軟體

具體來說,超異構計算整合先進計算單元有以下幾個關鍵點:一是與板級設計一樣,用多功能、多架構的芯片處理和加速不同的運算負載;二是把計算單元封裝在一個芯片裡,但這與板級層面的連接不同,是在封裝層設計先進的技術,把帶寬放大,同時功耗降低,體積減小,是一種封裝集成技術;三是使用這種複雜的超異構模式,不能給軟體開發人員增加難度,因此超異構計算還需要統一的異構計算軟體。

尤其是在封裝技術上,英特爾設想,其業界首創的 3D 邏輯芯片封裝技術 Foveros 將在超異構計算中大顯身手,能夠支撐超異構計算的第二個關鍵點。

Foveros 在 2019 年亮相 CES。當時,英特爾公司高級副總裁兼客戶端計算事業部總經理 Gregory Bryant 介紹,Foveros 可以可支持混合 CPU 架構設計,將確保先前採用分離設計的不同 IP 整合到一起,同時保持較小的 SoC 尺寸,僅有 12×12mm,功耗也非常低。這也使得它可以搭載到更小尺寸主機板的單一產品中,使得 OEM 能夠更加靈活地採用輕薄的外形設計,可以為行業、為合作夥伴生產各種不同規格尺寸產品提供全方位的性能。官方稱可支持小於 11 英寸的產品。

英特爾中國研究院院長宋繼強則對 DeepTech 進一步地解釋了 Foveros 全 3D 堆疊的特性,尤其是與 2.5D 堆疊的對比:“假設我們把 10nm 的 CPU 或者 GPU、14nm 的 Modem,與 22nm 的互連芯片整合在一起,在超異構方式下可以通過 2.5D 封裝,或者 3D 封裝整合在一起。2.5D 是芯片平鋪在同一層,但是通過基底層嵌入芯片,即嵌入式的多芯片連接橋,可以實現連接。可以看出,2.5D 已經有了平面上的堆疊,但還不是全 3D 堆疊。Foveros 全 3D 堆疊,真正可以做到把邏輯芯片和邏輯芯片堆在一層堆高,以及加入 memory,這樣可以在體積做到最小,而且芯片之間的互聯互通的帶寬做到最高”。

據了解,英特爾面向PC的最新低功耗處理器 LAKEFIELD 就已經使用了 Foveros 3D堆疊技術,採用混合 CPU 的架構,有處理不同工作負載能力。LAKEFIELD 基於英特爾最新的 10nm 工藝製造,集成了一個大核心 CPU 和四個小核心 CPU,其中大核心是最新的 Sunny Cove 架構,擁有 0.5MB LLC 緩存,四個小核心的架構並未公布,共享 1.5MB 二級緩存,同時所有核心共享 4MB 三級緩存。

打造這樣的已經直接整合了記憶體的 SoC,一個疑問是,英特爾未來會更傾向於以這種打包整合的方式出售芯片、即產品越來越封閉的打法嗎?

對於這一疑問,宋繼強給出的答案是:“恰恰相反,超異構計算反而會讓英特爾更加開放”。

他解釋道,由於超異構計算可以整合各種各樣的芯片,這樣不止英特爾自身的產品,客戶的芯片也可以放進來。此前英特爾就曾用 2.5D 技術封裝過其它公司的芯片,例如將 AMD 的芯片跟英特爾的 CPU 封裝在一起。

不過,目前英特爾的 3D 封裝基本還是封裝自己的芯片。但宋繼強表示,如果有一些客戶確實有自己比較好的芯片,是可以放在這種平台上進行 3D 封裝的。

“這個可能性是存在的。因此,英特爾在超異構計算上不會變得更加封閉”,他說。

宋繼強也表示,更加開放,意味著英特爾將進軍之前沒有涉足過的領域,比如物聯網節點、一些輕量級的計算、數據的早期分析過濾等等,“因為第三方的產品可以封裝進去,我們也就可以更接近一些更邊緣、更碎片化的市場”。

被忽視的 AI×5G 聚合效應

在與 DeepTech 談及押注超異構計算的對話中,宋繼強重點強調的一個更宏觀的判斷趨勢是: AI 和 5G 在 2019 和 2020 年都達到了可用性(5G 在 2019 年試商用,在 2020 年正式商用),“ AI×5G ”的聚變效應以後,計算就將進入超異構時代。

(來源:DeepTech)

目前這種 AI×5G 的聚變效應已經在智能交通上有所體現:AI 算法可以對視頻數據進行實時分析,但這種分析不能全在雲端上,還需要利用 5G 的能力在前端、邊緣端做一些分析篩選的配合;而數據到了雲端之後,需要利用雲端的全場景模擬,例如數字孿生,去實現與真實場景的同步性,而“同步”,依靠的正是 5G,才能保持同步。

未來城市級的規劃或者是預警,對上述流程還會提出更高的要求,AI×5G 的聚變可能比我們想象的還要猛烈,將激發對數據傳輸、存儲、計算、分析等方面的需求增長,而超異構計算,還僅僅是這些需求反應中的一個被觸發的技術點而已,這種芯片技術發展的背後,是整體的計算機技術趨勢走向更加深度的整合協同。

宋繼強認為,過去業界談到 AI 和 5G 的結合,僅僅看到兩大技術疊加後線性的市場推動作用,但在越來越頻繁地與客戶接觸之後,英特爾發現,AI 和 5G 的疊加帶來的是一種乘法效應,例如利用 AI 為 5G 所帶來的數據去更好地做下一層級的分析,在部署的時候,就應該充分利用這兩個變革性技術乘法效應。

-End-

請隨簡歷附上3篇往期作品(實習生除外)

獲得更多的PTT最新消息
按讚加入粉絲團