近些(xiē)年,GPU在業界的重要性愈加凸出,無論是在高(gāo)性能計(jì)算(suàn),還(hái)是在消費級領域,其對用戶的粘性越來(lái)越強,英偉達的火(huǒ)爆就是得(de)益于其核心的GPU技(jì)術(shù)和(hé)産品,在這種情況下,傳統巨頭英特爾坐(zuò)不住了,原本隻是在消費級市場(chǎng)生(shēng)産集成GPU顯卡,市場(chǎng)需求的變化使得(de)英特爾開(kāi)始組建獨立GPU研發團隊,并投入了越來(lái)越多(duō)的資源,以應對英偉達和(hé)AMD的競争,特别是在高(gāo)性能計(jì)算(suàn)領域。
在高(gāo)性能應用領域,對GPU的功耗和(hé)成本可(kě)控的要求越來(lái)越高(gāo),這就對相關技(jì)術(shù)提出了更高(gāo)的要求,包括芯片設計(jì)方法、EDA工具、制(zhì)程工藝,以及封裝技(jì)術(shù),要想實現高(gāo)性能與功耗、成本的有(yǒu)效平衡,以上(shàng)這些(xiē)技(jì)術(shù)環節缺一不可(kě),而随着摩爾定律的逐步“失效”,先進封裝技(jì)術(shù)的重要性越來(lái)越凸出,而英特爾、AMD和(hé)英偉達這三巨頭都看到了這一環節的重要性,并不斷加強研發力度。特别是在近期,這三家(jiā)公司不約而同地在MCM(多(duō)芯片模塊)方面披露了重要信息。
MCM打入GPU
MCM是為(wèi)解決單一芯片集成度低(dī)和(hé)功能不夠完善的問題而生(shēng)的,它把多(duō)個(gè)高(gāo)集成度、高(gāo)性能、高(gāo)可(kě)靠性的die,在高(gāo)密度多(duō)層互聯基闆上(shàng)用SMD技(jì)術(shù)組成多(duō)種多(duō)樣的電(diàn)子模塊系統,形成多(duō)芯片模塊。MCM具有(yǒu)以下特點:封裝延遲時(shí)間(jiān)縮小(xiǎo),易于實現模塊高(gāo)速化;縮小(xiǎo)整機/模塊的封裝尺寸和(hé)重量;系統可(kě)靠性大(dà)大(dà)提高(gāo)。
以前,MCM主要用于CPU和(hé)存儲設備,特别是在CPU領域應用較為(wèi)普遍,如早期IBM的Power4雙核處理(lǐ)器(qì),就是4塊雙核Power4以及附加的L3高(gāo)速緩存形成的MCM,還(hái)有(yǒu)英特爾的PentiumD(研發代号:Presler)、Xeon,以及AMD的Zen2架構Ryzen(核心代号:Matisse)、EPYC處理(lǐ)器(qì)等,都是應用MCM的典型代表。
近些(xiē)年,在AMD的引領下,MCM封裝技(jì)術(shù)開(kāi)始走向GPU。之所以如此,主要是因為(wèi)傳統顯卡是帶有(yǒu)多(duō)個(gè)GPU的PCB闆卡,需要連接兩個(gè)獨立顯卡的Crossfire或SLI橋接器(qì)。傳統的SLI和(hé)CrossFire需要PCIe總線來(lái)交換數(shù)據、紋理(lǐ)、同步等。由于GPU之間(jiān)的渲染時(shí)間(jiān)會(huì)産生(shēng)同步問題,因此在許多(duō)情況下,傳統的雙GPU顯卡,即單個(gè)PCB上(shàng)的兩個(gè)芯片由它互連,每個(gè)芯片都有(yǒu)自己的VRAM。SLI或CrossFire的能耗很(hěn)大(dà),冷卻也是一個(gè)挑戰,這些(xiē)在很(hěn)長一段時(shí)間(jiān)內(nèi)都困擾着工程師(shī)。
MCMGPU則是一個(gè)單獨的封裝,其闆載橋接器(qì)取代了傳統兩個(gè)獨立顯卡之間(jiān)的Crossfire或SLI橋接器(qì)。
在高(gāo)性能計(jì)算(suàn)應用領域,這種MCMGPU的優勢很(hěn)明(míng)顯,也值得(de)花(huā)費更多(duō)時(shí)間(jiān)和(hé)精力在解決封裝和(hé)互連方面的軟件問題,以應對更高(gāo)的MCM設計(jì)複雜度。目前來(lái)看,MCMGPU主要用于數(shù)據中心和(hé)雲計(jì)算(suàn)應用領域。随着技(jì)術(shù)的不斷成熟,以及PC應用性能的提升,其在消費電(diàn)子領域的應用也将會(huì)出現。
三巨頭發力
最早将MCM封裝技(jì)術(shù)引入GPU的是AMD。2020年,該公司把遊戲卡與專業卡的GPU架構分家(jiā)了,遊戲卡的架構是RDNA,而專業卡的架構叫做(zuò)CDNA,首款産品是InstinctMI100系列。2021年,AMD的Q2财報确認CDNA2GPU已經向客戶發貨了,其GPU核心代号是Aldebaran,它成為(wèi)AMD第一款采用MCM封裝的産品,是為(wèi)數(shù)據中心準備的。在PC方面,2022年引入下一代RDNA3架構後,基于MCM的消費級RadeonGPU也會(huì)出現。
制(zhì)造多(duō)芯片計(jì)算(suàn)GPU類似于制(zhì)造多(duō)核MCMCPU,例如Ryzen5000或Threadripper處理(lǐ)器(qì)。首先,将芯片靠得(de)更近可(kě)以提高(gāo)計(jì)算(suàn)效率。AMD的Infinity架構确保了高(gāo)性能互連,有(yǒu)望使兩個(gè)芯片的效率接近一個(gè)的。其次,使用先進的工藝技(jì)術(shù)批量生(shēng)産多(duō)個(gè)小(xiǎo)芯片比大(dà)芯片更容易,因為(wèi)小(xiǎo)芯片通(tōng)常缺陷較少(shǎo),因此比大(dà)芯片的産量更好。
前些(xiē)天,在2021年财報電(diàn)話(huà)會(huì)議上(shàng),AMD确認,今年會(huì)有(yǒu)幾項重要産品發布,包括基于RDNA3架構的GPU,也就是RadeonRX7000。目前來(lái)看,該系列最新顯卡會(huì)有(yǒu)三款GPU,分别是Navi31、Navi32和(hé)Navi33,其中,Navi31和(hé)Navi32将采用MCM封裝。之前有(yǒu)傳聞稱,Navi31和(hé)Navi32的InfinityCache将采用3D堆棧的設計(jì),會(huì)單獨添加到MCD小(xiǎo)芯片中,與Zen3架構上(shàng)采用3DV-Cache的原理(lǐ)類似,性能會(huì)有(yǒu)較大(dà)提升。
由于Navi31和(hé)Navi32采用了MCM封裝,AMD将會(huì)使用兩種不同制(zhì)程,GPU會(huì)使用台積電(diàn)的5nm工藝,緩存I/O芯片則會(huì)采用台積電(diàn)的6nm工藝。
英偉達也在跟進MCM封裝GPU。
2017年,英偉達展示了通(tōng)過四個(gè)小(xiǎo)芯片構建的設計(jì)方案,不但(dàn)提升了性能,還(hái)有(yǒu)助于提高(gāo)産量(較小(xiǎo)的芯片良品率會(huì)提高(gāo)),而且還(hái)允許将更多(duō)的計(jì)算(suàn)資源集合在一起。這種多(duō)芯片設計(jì)還(hái)有(yǒu)助于提高(gāo)供電(diàn)效率,具有(yǒu)更好的散熱效果。
近日,英偉達研究人(rén)員發表了一篇技(jì)術(shù)文章,概述了該公司對MCM的探索,英偉達目前在MCM封裝GPU上(shàng)的做(zuò)法稱為(wèi)“ComposableOnPackageGPU”(COPA),該團隊講述了COPAGPU的各項優勢,尤其是能夠适應各種類型的深度學習工作(zuò)負載。
由于傳統融合GPU解決方案正迅速變得(de)不太實用,研究人(rén)員才想到到COPA-GPU的理(lǐ)念。融合GPU解決方案依賴于由傳統芯片組成的架構,輔以高(gāo)帶寬內(nèi)存(HBM)、張量核心/矩陣核心(MatrixCores)、光線追蹤(RT)等專用硬件的結合。
此類硬件或在某些(xiē)任務下非常合适,但(dàn)在面對其它情況時(shí)卻效率低(dī)下。與當前将所有(yǒu)特定執行(xíng)組件和(hé)緩存組合到一個(gè)包中的單片GPU設計(jì)不同,COPA-GPU架構具有(yǒu)混合/匹配多(duō)個(gè)硬件塊的能力。如此一來(lái),它就能夠更好地适應當今高(gāo)性能計(jì)算(suàn)隻能呈現的動态工作(zuò)負載、以及深度學習(DL)環境。
這種整合更适應多(duō)種類型工作(zuò)負載的能力,可(kě)帶來(lái)更高(gāo)水(shuǐ)平的GPU重用。更重要的是,對于數(shù)據科學家(jiā)們來(lái)說,這使他們更有(yǒu)能力利用現有(yǒu)資源,來(lái)突破潛在的界限。