GPU性能提升3倍可能嗎?

作者 : 黃燁鋒,EE Times China

看過Nvidia Hopper的發佈後,更為現存的AI晶片公司感到顫慄:倒不光是明面上Tensor Core的運算力與HBM3、NVLlink傳輸頻寬之類的數位提升,還在於Nvidia如今也在晶片架構層面做出更具針對性的改進…

資料中心的演進週期相比消費性電子——如PC、手機之類的產品——一般會更慢。感覺Ampere架構的A100加速卡還沒到貨,今年Nvidia GTC的Hopper H100加速卡就已經來了。Nvidia共同創辦人暨執行長黃仁勳在今年主題演講回答記者提問時也提到,當前Ampere和Turing架構的GPU正在向全球的資料中心出貨,「Volta應該幾個月前才剛剛停止,Ampere和Turing估計還會至少再持續2年。Hopper是在此基礎上的延續。」雖然Hopper架構的H100今年第三季就準備好開賣,它應當是更具未來向的一代晶片。

Nvidia FY22財年第四季資料中心業務營收達到了32.6億美元,較去年同期又漲了71%;整個財年資料中心業務營收則達到106.1億美元,同比成長58%。這樣的資料其實已經沒什麼可吃驚的,先前筆者就已總結過,Nvidia的存在對一眾AI晶片公司而言有著怎樣的威懾力,無論是市場、技術,還是營收。

在看過Hopper的發佈後,更為現存的AI晶片公司感到顫慄:倒不光是明面上Tensor Core的運算力與HBM3、NVLlink傳輸頻寬之類的數位提升,還在於Nvidia如今也在晶片架構層面做出更具針對性的改進,比如新的FP8資料格式支援、特別針對Transformer模型加入的Transformer Engine,以及新的DPX指令。這在某種程度上已經是比較明確的DSA(Domain-Specific Architecture)的思路了(雖然Tensor Core的存在本身就已經是DSA),自然在某些特定專案上有著成倍的性能與效率提升;實在是讓標榜DSA的那麼多AI晶片公司(以及做GPGPU的企業)感到背脊發涼。

雖說筆者認為,更多此類偏專用特性的加入,即便對Nvidia這樣的生態巨無霸而言,都充滿了挑戰和不確定性,尤其開發者可能Ampere都還沒完全整明白的情況下,Hopper又加了一堆新東西;但應該沒有人會說Nvidia的思路是不對,而且如果這樣的生態連Nvidia都做不起來,那應該也沒有多少公司能做得起來了吧。

3倍性能提升是真的嗎?

H100作為GPU加速卡稱謂時,其上的GPU die部分名為GH100 (或者習慣上常被稱作GH100核心)。H100應該是Hopper架構的第一款產品,定位於旗艦級伺服器加速卡。依照常規列一下其中GH100的主要參數和配置。完全體的GH100採用台積電4nm製程——Nvidia在Hopper技術白皮書中說是台積電為Nvidia客製的4N製程,die size為814mm²,800億個電晶體;主要配置包括:

  • 8個GPC (GPU Processing Clusters)、72個TPC (Texture Processing Cluster,每個GPC有9個TPC)、144個SM (Streaming Multiprocessor,每個TPC有2個SM);
  • 每個SM有128個FP32 CUDA core,總共18,432個FP32 CUDA core;
  • 每個SM有4個Tensor core (張量核心,第4代),總共576個Tensor core;
  • 6個HBM3 (或HBM2e) die,最高80GB,5,120bit寬度,3TB/s頻寬;
  • 60MB L2 cache;
  • 第4代NVLink和PCIe Gen 5。

 

 

單純從這些資料可以看出規模上的顯著擴展,包括SM數量增多、每個SM的規模幾乎翻倍——Nvidia GPU架構資深副總裁Jonah Alben在架構簡析中,也提出了兩倍吞吐的一些數字(MACs/clock,每週期乘積累加),包括tensor core各種格式吞吐的2倍提升(如上圖)。其實從電晶體數量相比前代(A100 542億)成長就看得出規模上的顯著變化。

兩種插口形態,SXM5和PCIe Gen 5。其中SXM5版配HBM3儲存(PCIe Gen 5版為HBM2e)——HBM3仍與GPU運算die一起,以CoWoS 2.5D封裝;多GPU為NVLink連接,頻寬可以達到900GB/s (較上一代提升1.5倍)。不過SXM5形態的H100板卡達到了700W TDP功耗,比Ampere架構時代還是高出不少的;PCIe Gen 5版H100的TDP為350W。

Alben在採訪中說,雖然看起來功耗要求更高,但H100相比A100有著更顯著的能耗比優勢。Nvidia表示,「相比過去快很多的速度完成相同量的工作,自然需要更高的功耗,所以H100增加到最多700W TDP。我們期望支援液冷方案的客戶能夠用上這樣的性能,700W是為他們提供了一種選擇。但具體要用多少功耗,都是由用戶自行決定的。即便是SXM5,也可以限定功耗為350W。」

黃仁勳在主題演講中主要強調了Tensor運算力資料相比前代的提升。H100相比A100的「3倍」性能提升應該是這次會上所有人耳熟能詳的數值了,源自下圖所述的tensor core運算力提升。這組資料描述的是SXM5形態的H100的第4代tensor core。

 

 

基於單個SM本身規模的翻倍,外加SM數量增多,以及更先進製造製程可以再提一提頻率,那麼H100相比A100各項指標(主要是tensor)的3倍性能提升也是比較好理解的——總感覺現在有錢的晶片公司都在瘋狂堆料…

這裡有個6倍性能提升的FP8。FP8是Hopper導入的新的tensor處理格式。此處的6倍是FP8運算力與上一代的FP16相比而來,則使用FP8的AI應用性能在H100 GPU上,可以達到A100的6倍——相比其他項目的3倍。另外,2倍是由於採用的FP8運算精準度計算性能翻倍,並配合Transformer Engine運算帶來的AI運算力提升。

從FP8的加入,及此處「6X」性能提升的宣傳,都能看出這代Hopper的主要著力點,就在AI上。其他幾場GTC主題演講,雖然也都有提HPC,但篇幅是明顯不及AI。估計這兩者在電晶體數量配比上,也很難做到兩全,而AI晶片性能,真切地被Nvidia又拉到了另一個紀元。

 

GH100的一個SM。

 

H100相比A100的性能變化:FP64同樣有3倍性能提升。

 

值得一提的是,HBM3帶來了記憶體頻寬的提升,NVLink相比上代也有1.5倍的頻寬提升,但其實這些提升相較運算力提升並不對等。

明年將上市的Grace CPU

最後簡單談談Nvidia尚未問世的Grace CPU——去年GTC上黃仁勳就已經介紹過這顆CPU。Grace在定位上仍然是針對HPC和AI。黃仁勳在接受採訪時再次強調了,Grace並不用於取代誰,「我們將支援所有需要我們支援的CPU。記住,Nvidia是一家做加速運算的企業,我們熱愛所有類型的CPU:是CPU,我就能連接做加速。」

而Nvidia設計Grace,只是「設計市場上並不存在的CPU」而已。「Grace是個超級晶片,和市面上其他已有的CPU是不一樣的。比如儲存系統就不同:這是第一顆用LPDDR5的高性能CPU,將記憶體和CPU整合。兩顆超級晶片中間用NVLink相連。記憶體頻寬也很出色。所以其應用方向就是資料密集型應用,比如資料分析、資料處理、資料科學、AI、大型模型訓練等等。」黃仁勳說,「市面上現有的CPU並不十分適合這樣的應用,所以我們決定打造一款全新的CPU。」

 

 

Nvidia有關Grace的發佈包括NVIDIA Grace Hopper超級晶片,就是把Grace CPU和Hopper GPU放在同一個系統上,用「NVLink-C2C」(chip to chip)互連,頻寬同樣是900GB/s。相較DGX A100伺服器裡GPU的系統記憶體頻寬有30倍的領先——這原本也是去年筆者驚歎Grace與Nvidia GPU協作時,在頻寬方面的顯著優勢。

 

 

另一個重頭戲是新款NVIDIA Grace CPU超級晶片的發佈,由兩顆Grace CPU構成,透過NVLink-C2C連接。這顆超級晶片總共有144個CPU核心,1TB/s的記憶體頻寬——從頻寬數字來看,應該足夠秒殺尚未問世的Xeon和Eypc了。

黃仁勳提到,Grace超級晶片的SPECint 2017得分大約在740分左右。單純以此性能分數戰明年的Epyc Genoa平台,可能還需要再觀望;不過Grace超級晶片的能效表現大約會有很大優勢。黃仁勳表示:「我們預計Grace超級晶片將成為最高性能、相比屆時最佳CPU有著2倍能效優勢的CPU。」

接受採訪時,黃仁勳還說:「兩顆晶片一旦連起來了,表現得就像一顆晶片一樣。」雖說性能、延遲仍會有較小的差別,「但程式設計模型是一致的。」

 

 

NVLink-C2C互連也算是本次發佈的一個熱點了,畢竟多die先進封裝就是半導體領域的熱點。Nvidia對NVLink-C2C的介紹不多。在GTC之前的一場pre-briefing上,Nvidia資料中心運算資深總監Paresh Kharya提供的一張PPT提到幾個關鍵點:

  • 超快chip-to-chip互連,可將協力廠商晶片與Nvidia的晶片連接;
  • 基於NvidiaSERDES與LINK設計技術打造;
  • 支援Arm的AMBA CHI協議,達成Arm Ecosystem整合;
  • 可以用在PCB、MCM、Interposer或晶圓級上;
  • 相較於先進封裝Nvidia晶片的PCIe Gen 5 PHY,有著25倍更高的能效,與90倍的面積效益;
  • Nvidia將支援開發中的UCIe標準。

看起來Nvidia在此掌握的互連IP是偏上層的,各類基於chiplet的2D、2.5D先進封裝都可行。另外就是將來我們有機會看到有不同的IP出現在同一顆晶片上,且以Nvidia的技術做互連,打造「半客製系統設計」。

除了GPU、CPU硬體產品資訊外,未來還將對GTC 2022的其他內容做更進一步的報導,包括Nvidia AI、Omniverse等,畢竟這些生態構成,才是維繫如今其硬體產品大賣的基礎,也是其佔領市場、尋得先機的絕對主力。

本文原刊登於EE Times China網站

 

 

 

 

 

加入我們官方帳號LINE@,最新消息一手掌握!

發表評論