進軍邊緣AI應用 記憶體技術面臨多重挑戰

作者 : Sally Ward-Foxton,EE Times歐洲特派記者

記憶體在邊緣AI系統中的作用對大多數AI應用都是相同的,為保持效率,這些工作負載需要加速處理以最大化AI運算能力。因此,對邊緣AI系統中的記憶體容量和頻寬通常都要求很高。不過...

人工智慧(AI)在邊緣的崛起對記憶體系統提出了一系列新的要求。目前的記憶體技術能否滿足這一具有挑戰性的新應用的嚴苛要求?長遠來看,新興記憶體技術將為「邊緣AI」(edge AI)帶來什麼?

首先我們要理解,並沒有標準的邊緣AI應用。廣義上來說,邊緣AI涵蓋了雲端之外所有支援AI功能的電子系統。它包括「近邊緣」(near edge),即通常所說的企業資料中心和本機伺服器。

再遠一點,它包含了自動駕駛中的電腦視覺應用;生產製造環境下的閘道器設備執行AI推論,以檢查生產線上產品的缺陷;電線桿上的5G 「邊緣盒」(edge boxes)分析視訊流,以用於交通管理等智慧城市應用;5G基礎設施也在邊緣利用AI實現複雜而高效率的波束成形演算法。

而在「遠邊緣」(far edge),手機等終端裝置也能支援AI功能(如Snapchat應用程式的濾鏡),例如實現對家電的語音控制,對工廠中的物聯網感測器節點執行感測器融合,然後再將結果發送到另一台閘道器裝置。

記憶體在邊緣AI系統中的作用對大多數AI應用都是相同的,即儲存神經網路權重、模型程式碼、輸入資料和中間激勵函數(intermediate activations)等。為保持效率,這些工作負載需要加速處理以最大化AI運算能力。因此,對邊緣AI系統中的記憶體容量和頻寬通常都要求很高。不過,不同應用的需求各式各樣,而且涵蓋多種因素,如尺寸、功耗、低壓運作、可靠性、散熱/冷卻考量以及成本等等。

邊緣資料中心

邊緣資料中心是一個關鍵的邊緣市場,其應用案例涵蓋醫療影像、研究和複雜的財務演算法,其中涉及防止隱私被上傳到雲端。另一個重要應用領域是自動駕駛,但延遲阻礙了AI在此領域的發展。這些系統採用的記憶體,與其他應用所使用的伺服器相同。

「在需要開發和訓練AI演算法的應用中,採用低延遲DRAM以實現快速、位元組等級(byte-level)的主記憶體至關重要;」一家設計並開發記憶體產品的公司Smart Modular Technologies方案架構師Pekon Gupta表示,「大型資料集需要大容量的RDIMM或LRDIMM;系統加速則需要NVDIMM,我們用這些記憶體進行寫入快取(write caching)和檢查點(checkpointing),以替代速度較慢的固態硬碟(SSD)。」

電信運營商通常將運算節點設置在靠近終端使用者的地方。Gupta表示:「我們意識到,這些電信邊緣伺服器將能執行越來越複雜的演算法;」因此,「服務供應商正在為這些邊緣伺服器添加更多記憶體和處理能力,例如採用RDIMM、LRDIMM,以及像NVDIMM之類高度可取得的永久記憶體技術。」

Gupta認為,英特爾(Intel)的3D-Xpoint非揮發性記憶體Optane是伺服器AI應用的良好解決方案,其性能介於DRAM和快閃記憶體(Flash)之間。

「Optane DIMM和NVDIMM都被當作AI加速器使用;」他指出:「NVDIMM為AI應用加速提供了極低延遲的分層(tiering)、快取、寫入緩衝和詮釋資料(metadata)儲存能力。Optane資料中心DIMM用於記憶體內資料庫加速,這需要數百GB至TB的永久性記憶體與DRAM結合使用。儘管它們都是AI / ML加速應用的永久性記憶體解決方案,卻各有不同的獨立應用案例。」

英特爾Optane產品行銷總監Kristie Mann接受《EE Times》採訪時表示,Optane正逐步進軍伺服器AI領域的應用市場;「我們的客戶已經使用Optane非揮發性記憶體助力其AI應用,成功推動了電子商務、視訊推薦引擎(video recommendation engines)和即時財務分析等應用的發展。由於可增加容量,我們還看到了轉向記憶體內應用的趨勢。」

DRAM的高價格也讓Optane逐漸成為更有吸引力的選擇。配置兩顆Intel Xeon可擴充處理器和Optane永久性記憶體的伺服器,可提供多達6TB的記憶體容量,滿足需要大量資料記憶體的應用場景需求。

「DRAM仍然是最受歡迎的,但從成本和容量的角度來看有其侷限;」Mann表示:「由於成本、容量和性能方面的優勢,Optane永久性記憶體和Optane SSD之類的新型記憶體和記憶體技術正在逐步替代DRAM。Optane SSD尤其可以為HDD和NAND SSD資料提供強大的快取功能,以持續饋送AI應用資料;」她補充,相較於其他未完全成熟的新興記憶體,Optane也具有一定優勢。

Intel的Optane 200系列模組;據該公司表示,Optane目前已經開始支援AI應用。

Intel的Optane 200系列模組;據該公司表示,Optane目前已經開始支援AI應用。(圖片來源:Intel)

GPU加速

對高階邊緣資料中心和邊緣伺服器應用來說,GPU之類的AI運算加速器越來越受到青睞。除了DRAM,其記憶體選擇還有GDDR和HBM。GDDR是一種專門用於高頻寬GPU的DDR SDRAM;HBM則採用相對較新的晶片堆疊技術,可將多個記憶體裸晶與GPU本身放進同個一封裝。GDDR和HBM都是為AI應用所需的極高記憶體頻寬所設計。

對於最嚴苛的AI模型訓練,HBM2E可以提供3.6 Gbps的速度以及460GB/s的記憶體頻寬(兩個HBM2E堆疊可提供近1TB/s的頻寬)。這是目前性能最高的記憶體,而且體積小、功耗低,GPU領導廠商Nvidia所有資料中心產品都是採用HBM。

Rambus的IP核心產品資深行銷總監Frank Ferro表示,GDDR6也用於邊緣AI推論應用,滿足邊緣AI推論系統的速度、成本和功耗要求。其速度可達18 Gbps,頻寬可達72GB/s;而擁有四個GDDR6的DRAM可提供接近300GB/s的記憶體頻寬。他補充:「GDDR6主要支援AI推論和ADAS應用。」

若比較GDDR6和LPDDR,Ferro認為LPDDR更適用於邊緣或終端的低成本AI推論。Nvidia在大多數非資料中心邊緣解決方案──從Jetson AGX Xavier到Jetson Nano──都是採用LPDDR。

Ferro表示:「LPDDR4的頻寬限制為4.2 Gbps,LPDDR5的頻寬限制為6.4 Gbps。隨著記憶體頻寬需求增加,我們將看到越來越多採用GDDR6的設計。記憶體頻寬的差距推動了GDDR6的需求。」儘管GDDR是為了與GPU搭配使用而設計,其他處理加速器也可以利用其頻寬優勢;Ferro特別介紹了Achronix Speedster7t,一款應用於推論與低階訓練,以FPGA為基礎的 AI加速器。

「HBM和GDDR記憶體在邊緣AI應用中都有發展空間,」Ferro表示:「HBM將繼續支援邊緣應用。不過儘管擁有諸多優勢,由於採用3D技術和2.5D製程,HBM成本仍然較高,有鑒於此,GDDR6是綜合考慮成本與性能後的折衷選擇,尤其適合網路中的AI推論。」

HBM也被應於高性能資料中心的AI ASIC,如Graphcore的IPU;但儘管它性能出色,其價格對某些應用而言仍高得離譜。高通(Qualcomm)就是抱著這種想法的公司之一,其Cloud AI 100晶片鎖定邊緣資料中心、5G「邊緣盒」、ADAS /自動駕駛和5G基礎設施中的AI推論加速。

「對我們而言,使用標準的DRAM而非像是HBM這樣的技術至關重要,因為我們希望降低物料成本、希望使用能從多家供應商採購的標準元件;」Qualcomm運算和雲端事業部門總經理Keith Kressin表示:「我們有客戶想要在單一顆晶片上實現所有功能,有些則希望跨晶片。相同的是,他們都希望將成本控制在合理範圍,不會追求HBM或其他更獨特的記憶體。」

他接著指出:「在AI訓練中,確實會存在跨多個晶片的大模型;但對Cloud AI 100鎖定的推論市場來說,很多模型都更本地化。」

遠邊緣

在資料中心之外的邊緣AI系統通常專注於推論,但也有一些值得注意的例外,例如聯合式學習(federated learning)和其他漸進式訓練技術。

有一些針對低功耗應用的AI加速器採用記憶體支援AI處理;以多維矩陣乘法為基礎的推論任務,適合以記憶體單元執行計算的類比運算技術。如美國矽谷新創公司Syntiant就是採用這種技術打造支援消費性電子語音控制的元件;另一家同樣總部位於美國矽谷的新創公司Gyrfalcon,則利用該技術設計為智慧型手機處理相機效果的AI推論元件。

另一個例子是專長智慧處理單元設計的美國業者Mythic,利用快閃記憶體單元的類比運作在單個快閃記憶體電晶體上儲存8-bit整數值(integer value,一種權重參數),使其密度高於其他記憶體內運算技術。

這種可程式化快閃記憶體電晶體可用作可變電阻(variable resistor),輸入為電壓、輸出為電流,再結合ADC與DAC,就可以得到一個有效的矩陣乘法引擎。Mythic的IP在於能消除雜訊、實現可靠8位元運算的補償和校正技術。

Mythic採用快閃記憶體電晶體陣列構建高密度乘法累加引擎。

Mythic採用快閃記憶體電晶體陣列構建高密度乘法累加引擎。(圖片來源:Mythic)

除了記憶體內運算元件,特定利基型邊緣運算應用也很流行採用ASIC,尤其是低功耗與超低功耗系統。ASIC的記憶體系統採用了幾種記憶體類型的組合,其中分散式本地SRAM速度最快、最省電,但佔用空間較大。在晶片上配置塊狀SRAM (bulk SRAM)可以節省空間,但會帶來性能瓶頸;外部DRAM較便宜,但功耗較高。

AI推論加速器業者Flex Logix執行長Geoff Tate表示,要在分散式SRAM、塊狀SRAM和外部DRAM之間為該公司InferX X1晶片找到最佳平衡點,需要進行一系列性能模擬。其目的是最大化單位成本的推論處理量,這需要綜合考量晶片尺寸、封裝成本和DRAM數量。

「最佳配置為單顆x32 LPDDR4 DRAM、4K MAC (933MHz時算力為7.5TOPS),以及約10MB的SRAM;」Tate指出,SRAM速度快,但成本高於DRAM,若採用台積電(TSMC)的16奈米製程,1MB SRAM面積約為1.1 mm2,「我們的InferX X1晶片面積僅54 mm2,而且因為我們的架構,DRAM存取與運算主要是重疊的,因此在性能上不能妥協。對於大模型來說,配置單顆DRAM是最恰當的權衡,至少我們的架構是如此。」

Flex Logix晶片將被應用於需要即時運作的邊緣AI推論任務,包括低延遲串流視訊分析;這類應用包括ADAS系統、保全影像分析、醫療影像和品保/檢測應用。那麼在這些應用中,哪種類型的DRAM能搭配InferX X1?

「我們認為LPDDR會比較適合,單顆DRAM可以提供超過10GB/s的頻寬,而且有足夠的位元來儲存權重/中間激勵;」Tate表示:「其他DRAM都需要更多晶片和介面,並且需要購買更多用不到的容量。」

這裡是否有任何新興記憶體技術可發揮的空間?對此Tate的回答是:「使用任何新興記憶體都會讓製造成本大幅增加,SRAM卻是『免費』的,除了佔用晶片空間。隨著經濟情勢變化,臨界點也可能發生變化,但那還距離我們很遙遠。」

新興記憶體

儘管還達不到經濟規模,其他種類的新興記憶體仍可能在未來支援AI應用。例如磁阻記憶體(magneto-resistive RAM,MRAM),是透過施加電壓控制磁體方向來儲存資料的每個位元,如果電壓低於翻轉位元所需的電壓,則可能只有一個位元會翻轉,這種隨機性是不需要的,因此會採用更高電壓來驅動MRAM以避免此種情況。儘管如此,某些AI應用仍可以利用這種天生的隨機性(stochasity,可將之視為隨機選擇或生成資料的過程)。

Gyrfalcon的元件已利用MRAM的這種隨機性進行實驗,它可將所有權重和激勵精度降低到1位元,因此大幅降低遠邊緣應用的運算和功耗要求。根據網路重新訓練的方式,有可能需要進行精度的權衡;通常就算降低了精度,神經網路仍能可靠運作。

專長MRAM技術的美國業者Spin Memory產品副總裁Andy Walker表示,「二值化神經網路(Binarized neural networks,BNN)的獨特之處在於,即使一個數字是-1或+1的確定性變小了,它仍然可以可靠運作。我們發現,儘管導入未正確寫入的所謂『位元錯誤率』而降低確定性,BNN仍能以高精度運作。」

MRAM可以在低電壓水準下自然地以受控方式導入位元錯誤率,在保持精度的同時進一步降低功耗要求;其關鍵在於確定最低電壓和最短時間下的最佳精度。Walker指出,這意味著最高能效。儘管此技術也適用於更高精度神經網路,但它特別適用BNN,因為MRAM單元具有兩種狀態,恰好與BNN中的二值狀態匹配。

Walker認為,在邊緣採用MRAM是其另一個潛在應用;「對於邊緣AI,MRAM能夠在不要求高性能的應用中以較低的電壓運作,但提高能效和記憶體耐用性非常重要。此外,MRAM天生的非揮發性,不需電源也可保存資料。」

還有一種所謂的「統一記憶體」(unified memory)應用,MRAM這種新興記憶體既可替代充當嵌入式快閃記憶體又可以替代SRAM,能在節省晶片面積的同時,避免SRAM固有的靜態功耗。而儘管Spin Memory的MRAM即將商用,BNN的具體實現將在基本MRAM單元的某種變體上發揮最大效果,因此目前仍處於研究階段。

神經形態ReRAM

ReRAM是適合邊緣AI應用的另一種新興記憶體。義大利米蘭理工大學(Politecnico Milan)最近利用以色列業者Weebit Nano的氧化矽(SiOx) ReRAM技術進行了研究,結果顯示ReRAM在神經形態運算上有不錯的前景。ReRAM為神經網路硬體增加了可塑性,也就是說,它可以隨條件的改變而進化,這是神經形態運算的一種實用特性。

目前的神經網路如果不「忘記」先前的訓練任務就無法繼續學習,人腦卻可以很容易地做到這一點──以AI術語來說,這是「無監督學習」(unsupervised learning),其演算法在無標記的情況下對資料集進行推論,在資料中尋找自己的模式。最終的結果可能就是,ReRAM支援的邊緣AI系統可以就地學習新任務,並適應其周遭環境。

整體而言,記憶體製造商正在開發新的技術,以提供滿足AI應用所需的速度和頻寬。無論是與AI運算在同一晶片上、在同一封裝中,還是在不同的模組上,都有很多種類型的記憶體適合眾多邊緣AI應用。

雖然針對邊緣AI的記憶體系統確切本質取決於具體應用,但事實證明,GDDR、HBM和Optane在資料中心非常受歡迎,LPDDR與晶片上SRAM則適合端點應用。至於新興記憶體正將其新穎特性發揮於旨在讓神經網路取得超越現有硬體能力之進展的研究上,終極目標是在未來實現高能效的類人腦系統。

 

本文同步刊登於《電子工程專輯》雜誌2020年11月號

責編:Judith Cheng

(參考原文:Memory Technologies Confront Edge AI’s Diverse Challenges,by Sally Ward-Foxton )

 

 

掃描或點擊QR Code立即加入 “EETimes技術論壇” Line 群組 !

 EET-Line技術論壇-QR

發表評論