HBM可以多「瘋狂」?

作者 : 邵樂峰,EE Times China

「異質資料中心」時代透過部署CPU、GPU、DPU、FPGA和ASIC等各種元件,分別側重於提供特定功能或者處理不同類型和格式的資料,從而顯著提高整個系統的速度和性能…

人工智慧/機器學習(AI/ML)在全球迅速興起,正推動著製造業、交通、醫療、教育和金融等各個領域的驚人發展。從2012年到2019年,人工智慧訓練能力成長30萬倍,平均每3.43個月翻一番,就是最好的例證。而IDC《2021年全球資料圈(Global Datasphere 2021)》報告則顯示,2018-2024年,全球資料總量將從36皆位元組(ZettaByte,ZB)成長至146皆位元組。因此,支援這一發展速度需要的遠不止摩爾定律,人工智慧硬體和軟體的各個方面都需要不斷的快速改進,記憶體頻寬就是其中之一。

 

圖1:2012~2019年,人工智慧訓練能力成長30萬倍。

(來源:openai.com)

 

以先進駕駛輔助系統(ADAS)為例,L3及更高等級系統的複雜資料處理需要超過200GBps的記憶體頻寬。這些高頻寬是複雜人工智慧/機器學習演算法的基本需求,自動駕駛過程中需要這些演算法快速執行大量運算並安全地執行即時決策。而在L5,如果車輛要能夠獨立地對交通標誌和訊號的動態環境做出反應,以便準確地預測汽車、卡車、自行車和行人的移動,將需要超過500GBps的記憶體頻寬。

 

圖2:不同ADAS等級對儲存頻寬的要求。

(來源:anandtech.com)

 

資料中心是另一個需要應用架構師儘快找到高頻寬方案的領域。依照美光(Micron)全球顯存業務主管Bill Randolph的說法,隨著資料密集型工作負載和應用程式的成長,以及不斷演變的應用場景和新興業務機會的出現,「我們很難想像將一個擁有超過13億個參數的人工智慧模型放入單個GPU(即使是擁有32GB記憶體)中進行處理。」

於是,人們改變了傳統資料中心「CPU+記憶體(如DDR4)+儲存(如SSD)」的資料處理方式,轉而走進「異質資料中心」時代,即透過部署CPU、GPU、DPU、FPGA和ASIC等各種元件,分別側重於提供特定功能或者處理不同類型和格式的資料,從而顯著提高整個系統的速度和性能。

這就是以高頻寬記憶體(HBM)為代表的超頻寬解決方案開始逐漸顯露頭角的原因——透過增加頻寬,擴充記憶體容量,讓更大的模型/更多的參數留在離核心運算更近的地方,從而減少記憶體和儲存解決方案帶來的延遲。

 

圖3:高性能應用驅動著HBM的發展。

 

HBM的演進

HBM於2013年推出,是一種高性能3D堆疊SDRAM構架,資料傳輸速率大概可以達到1Gbps左右。

與前一代產品一樣,2016年推出的HBM2為每個堆疊包含最多8個記憶體晶片,同時將接腳傳輸速率翻倍,達到2Gbps。HBM2實現每個封裝256GBps的記憶體頻寬(DRAM堆疊),採用HBM2規格,每個封裝支援高達8GB的容量。

2018年末,JEDEC宣佈推出HBM2E規範,以支援增加的頻寬和容量。當傳輸速率上升到每接腳3.6Gbps時,HBM2E可以實現每堆疊461GBps的記憶體頻寬。此外,HBM2E支援最多12個DRAM的堆疊,記憶體容量高達每堆疊24GB。

HBM2E提供了達成巨大記憶體頻寬的能力。連接到一個處理器的四塊HBM2E記憶體堆疊就將提供超過1.8TBps的頻寬。透過3D堆疊記憶體,可以以極小的空間實現高頻寬和高容量需求。

在Nvidia最新一代的SXM4 A100 GPU,就使用了HBM2E記憶體。從晶片內部結構圖上可以看到,A100運算核心的兩側總共有6個HBM記憶體的放置空間。在SXM4 A100 GPU發佈的時候,Nvidia實際只使用了這6個HBM記憶體放置空間中的5個,提供40GB HBM2E記憶體容量,這意味著單個HBM2E記憶體上有8個1GB DRAM Die進行堆疊。對於升級版的80GB SXM4 A100 GPU,單個HBM2E記憶體上則採用了8個2GB DRAM Die進行堆疊。

 

圖4:Nvidia A100 80GB GPU。

 

而到了2021年,儘管JEDEC尚未發佈HBM3相關標準,但SK海力士和Rambus已先後發佈最高資料傳輸速率5.2Gbps和8.4Gbps的HBM3產品,每個堆疊將提供超過665GBps和1075GBps的傳輸速率,這無疑極為驚人。

 

圖5:HBM性能演進。

(來源:Rambus)

 

矽堆疊的奇蹟

眾所周知,HBM技術與其他技術最大的不同,就是採用了3D堆疊技術。對比HBM2E/HBM3、DDR、GDDR就會發現,它們的基本單元都是基於DRAM,但不同之處在於其他產品採用了平鋪的做法,而HBM選擇了3D堆疊,其直接結果就是介面變得更寬。如DDR的介面位元寬只有64位元,而HBM2E透過DRAM堆疊的方式就將位元寬提升到了1,024位元,這就是HBM與其他競爭技術相比最大的差異。

圖6、圖7分別展示了美光HBM2E和Rambus HBM3記憶體子系統產品的主要架構。透過矽穿孔(TSV)堆疊方式疊加在一起的DRAM記憶體條、SoC、仲介層和封裝,它們共同組成了整個3D的系統架構。

 

圖6:美光用於HBM2E的垂直堆疊DRAM,並透過TSV通道連接各層。

(來源:美光)

 

圖7:Rambus HBM3-Ready記憶體子系統產品主要架構。

(來源:Rambus)

 

Rambus IP核心產品行銷資深總監Frank Ferro說「目前來看,HBM的發展可能不會遇到障礙。但對比GDDR DRAM動輒16/18Gbps的速率,HBM3的速率即便達到8.4Gbps,也仍然存在差距,而限制HBM發展的原因則主要來自兩方面:一是仲介層,二是3D堆疊帶來的製造成本。」

對仲介層進行完整的設計和表徵化處理,以確保訊號完整性,即為挑戰之一。因為HBM作為高速記憶體介面,在與仲介層互連的過程中包括至少上千條不同的資料連結,必須要確保所有鏈路的物理空間得到良好的控制,整個訊號的完整性也必須得到驗證。因此,從表徵化層面來講,不但需要對整個仲介層的材料做出非常精細的選擇,還要考慮漸進層的厚度,以及整個電磁反射相關的物理參數,並在此基礎上進行完整的分析和模擬,以實現訊號一致性的處理。

然而,如前所述,在人工智慧訓練領域和資料中心應用中,HBM2E/HBM3的優點使其成為一個更好的選擇。儘管在過去幾年內,HBM、HMC、PAM4等標準在市場上展開了激烈的競爭,但從目前的發展態勢來看,還是HBM佔據了更多的市場比重。

HBM的性能非常出色,這點毋庸置疑,所增加的採用和製造成本可以透過節省的電路板空間和電力相互的緩解。在物理空間日益受限的資料中心環境中,HBM緊湊的體系結構提供了確實的好處。它的低功率意味著它的熱負荷較低,在這種環境中,冷卻成本通常是幾個最大的營運成本之一。

資料中心採取分散式記憶體的方法會為HBM2E、HBM3和GDDR長期的發展帶來影響嗎?答案可能是不會。原因在於儘管SRAM的速度和延遲性都高於DRAM,但在固定的晶片面積上能安裝的SRAM數量卻非常少,很多情況下為了滿足人工智慧訓練的需求,一部分SRAM設備不得不裝在晶片之外,這就是問題所在。但總體來說,這兩種方案屬於從不同角度出發解決同一個問題,兩者之間是互補而非相互阻礙。

不過,坦白說,至少在人工智慧推理和汽車產業中,HBM技術還是不合適。例如在汽車中,除了複雜性和成本因素,由於汽車安全等級要求很高,考慮到HBM本身採用的是複雜的2.5D/3D架構,再結合DRAM裝置,所以目前為止在汽車市場上並沒有得到突破性的應用,相比之下,GDDR反而會是比較好的解決方案。

一點點「瘋狂」的小想法

既然在HBM2E階段就實現了達成巨大記憶體頻寬的能力,那麼是否有可能進一步,使記憶體靠近處理器,讓總體系統功耗得以維持在較低水準?

三星電子(Samsung Electronics)是這麼想,也是這麼做的。據報導,該公司的HBM2E不但保持每個堆疊8個裸片和3.2Gbps的訊號傳輸速率,達到每個堆疊16GB和每個堆疊410GBps,而且還直接在HBM2E記憶體堆疊內部嵌入處理,因此資料不必總是傳輸到CPU或連接到CPU的加速器進行處理和重新儲存。

三星表示,自研的HBM-PIM (記憶體內處理器,Processor In Memory)設備在記憶體和TSV之間添加了1.2 Teraflops可程式設計運算單元,與在其加速器上使用HBM記憶體的系統相比,HBM-PIM記憶體將使人工智慧工作負載的整體系統性能提高2倍,並將功耗降低了70%。

既然這樣,那如果再「瘋狂」一點,會如何?例如,試想能擁有一台具備若干GB HBM3記憶體的筆記型電腦?CPU和GPU可以共用相同的記憶體?把資料處理放在HBM3-PIM中進行?價格/性能曲線像我們預期的那樣下降?……這些想法現在看起來多少有些「天方夜譚」,但萬一實現了呢。

本文原刊登於EE Times China網站

 

 

 

 

 

加入LINE@,最新消息一手掌握!

發表評論