解決頻寬及容量限制 智慧記憶體控制器成關鍵

2022-12-21
作者 Anthea Chuang,EE Times Taiwan

隨著人工智慧(AI)/機器學習(ML)開始普及於各產業與應用,其所需的運算負載與工作量驅動著雲端基礎設施購必須具備更快的傳輸速度與更大的記憶體容量…

隨著人工智慧(AI)/機器學習(ML)開始普及於各產業與應用,其所需的運算負載與工作量驅動著雲端基礎設施,如伺服器內部架構必須進行改變。而這樣的改變必須朝著讓伺服器處理器具備更快的傳輸速度與更大的記憶體容量進行,才能滿足應用運算需求。也因如此,伺服器記憶體共享技術——CXL (Compute Express Link)應運而生,且強化其訊號傳遞品質的智慧記憶體控制器也跟著問世。

Astera Labs商務長兼共同創辦人Sanjay Gajendra表示,人工智慧、機器學習與深度學習這幾項技術對於運算力的需求只會越來越高,這也為資料中心帶來新的挑戰,一為高速,二為更高的記憶體容量,而這也促使資料中心伺服器內部的架構產生改變,才能應付上述的挑戰。

而這些挑戰也引爆了新的問題,Gajendra說明,高速等於更高的傳輸速率,這是無庸置疑的,因此伺服器內部的CPU在與人工智慧處理器或GPU、Smart NIC,以及記憶體連接時,已升級為新的PCI Express Gen 5 (PCIe 5.0)。然而PCIe 5.0雖擁有高傳輸速率,但這也意味著訊號在傳輸時的衰減是隨著高速而成正比。外部伺服器間傳輸資料的銅線也有相同的問題,為減少衰減採用粗銅線,則會導致成本增加,且佔空間,因此如何用細銅線,同時避免訊號衰減,是相關業者不斷思索的問題。

 

新的運算工作需求導致資料中心伺服器處理器平台瓶頸。

(來源:Astra Labs)

 

再者則是如何擴增記憶體容量的挑戰,Gajendra解釋,一般CPU或GPU在執行運算工作時,會將資料傳送到一旁的記憶體進行,而人工智慧與機器學習加入後,需要更高的記憶體容量,但增加記憶體容量不僅會導致額外的成本,不做運算時,記憶體空間閒置就是一種「浪費」。有鑑於此,可共享記憶體的CXL出現,不過,如何有效的管理與共享,也是另一個難題。

為協助廠商解決人工智慧/機器學習衍生的種種關卡,克服加速和智慧基礎架構中的處理器記憶體頻寬瓶頸與容量限制,Astera Labs打造出適用於CXL 1.1和2.0的Leo Memory Connectivity Platform。Gajendra指出,已正式對客戶提供量產樣品的智慧型記憶體控制器可實現CXL.memory通訊協定,允許CPU存取及管理CXL附加記憶體,提供伺服器等級客製化的可靠性、可用性和可維護性(RAS)功能。

不僅如此,採用智慧型記憶體控制器後,即使發生記憶體錯誤、材料衰退、環境影響或製造缺陷等問題,也不會影響應用效能、正常運作時間和使用者體驗。Gajendra強調,Leo智慧型記憶體控制器是首創能提供記憶體共用和共享的解決方案,讓資料中心業者能透過提高記憶體利用率和可用性,進一步降低總擁有成本(TCO)。

另外,針對運算與網際網路應用,Astra Labs亦推出Aries平台,以及Taurus平台。此兩款平台皆為解決高速傳輸時,所引發的訊號衰減問題所開發,其中,Taurus平台可實現採用細銅線也能進行高速傳輸的願景;而Aries平台則可協助廠商擺脫PCIe、CXL等高速傳輸介面的越高速,訊號衰減就越大的「原罪」。

本文同步刊登於《電子工程專輯》雜誌202212月號

 

 

 

 

活動簡介

人工智慧(AI)無所不在。這一波AI浪潮正重塑並徹底改變科技產業甚至整個世界的未來。如何有效利用AI協助設計與開發?如何透過AI從設計、製造到生產創造增強的體驗?如何以AI作為轉型與變革的力量?打造綠色永續未來?AI面對的風險和影響又是什麼?

AI⁺ 技術論壇聚焦人工智慧/機器學習(AI/ML)技術,涵蓋從雲端到邊緣、從硬體到軟體、從演算法到架構的AI/ML技術相關基礎設施之設計、應用與部署,協助您全面掌握AI最新技術趨勢與創新,接軌AI生態系佈局,讓機器學習更快速、更經濟、更聰明也更有效率。

贊助廠商

發表評論

訂閱EETT電子報