「chiplet」準備在資料中心初試啼聲

2019-05-07
作者 Rick Merritt, EE Times矽谷採訪中心主任

chiplet是業界為了彌補矽製程技術進展趨緩所做的幾項努力之一,起源於1970年代誕生的多晶片模組(multi-chip modules)...

近期有一個號稱成員包括53家公司的組織,首次舉辦了為加速器訂定小晶片(chiplet)開放標準的工作會議;該組織的目標是在半導體進展步伐趨緩的當下,催生SoC的低成本替代方案。

這個名為「開放領域特定架構」(Open Domain-Specific Architecture,ODSA)的組織,隸屬於Facebook創建的開放運算計畫(Open Compute Project,OCP)框架下;OCP最近宣佈了第一個開放源碼晶片專案,但該專案正面臨技術難題和商業障礙,阻礙了其市場化動力,目前尚不清楚這項躊躇滿志的計畫能否獲得積極回應和廣泛參與。

迄今為止,已經有很多公司早早地創建了自己的chiplet生態系統,包括Marvell的MoChi、英特爾(Intel)的EMIB以及新創公司zGlue提供的產品。2018年夏天,英特爾就已發佈了針對其EMIB封裝技術的開放源碼AIB協議,作為所參與的美國國防部高等研究計畫署(DARPA)的chiplet研究專案之一部分。

chiplet是業界為了彌補矽製程技術進展趨緩所做的幾項努力之一,起源於1970年代誕生的多晶片模組(multi-chip modules),最近因為被視為一種節省成本的技術應用於AMD的Ryzen和Epyc系列x86處理器而復活。

「目前所有的多晶片介面都是專有的,我們這個組織想建立一個開放性介面,讓你可以組裝出最好的晶片;」 網路處理器設計業者Netronome工程師、ODSA的發起人之一Bapi Vinnakota表示,其目標是為OSDA組織提供該公司多核心網路處理器中使用的800Gbps架構RTL。

作為一個開始,其他ODSA成員在研討會上提出以一個簡單的「線束」(bunch of wires)作為初始實體層介面,可能以每接腳(pin) 1、2或4 Gbp的可選速率在有機基板上運作。

未來的介面還可能包括CCIX、112G和56G serdes以及RISC-V TileLink;該組織建議將來使用PCIe PIPE抽象層來實現各種協議和PHY實體層。儘管OSDA的成員主要聚焦於資料中心,但該組織的終極目標也包括催生行動裝置與邊緣系統晶片。

20190507_chiplet_NT31P1

ODSA的目標是圍繞PCIe建立快速概念驗證,同時定義其介面。
(圖片來源:ODSA)

ODSA將支援同調(coherent)和非同調(non-coherent)記憶體鏈路的混合應用,並採用turbo模式實現雙向流量;但他們似乎排除了英特爾的AIB協定,因為其資料速率和接腳排列限制太多。該組織計劃在今年底前建立以PCIe為基礎的概念驗證,同時將充實其PHY、協定以及其他規格,建議工程師們可以準備為明年的商業化佈署著手展開工作。

此外ODSA還要為chiplet定義商業模式;該組織另一位發起人,恩智浦半導體(NXP)行銷總監Sam Fuller表示,將為不同的產業別提出價值主張,並為已知合格晶片(KGD)定義測試認證。他補充指出,ODSA還需要吸引包括封裝業者在內的幾個關鍵參與者。

ODSA其他活躍成員還包括監督概念驗證的FPGA供應商Achronix,以及提供電源和散熱問題觀點的安森美半導體(On Semiconductor);新創公司Kandou、SiFive和zGlue也是該組織的聯合創始公司。大約有70人參與了ODSA的第一場活動,包括線上直播的20位左右參與者。Vinnakota表示:「每隔兩、三個星期就會4~5位新的菁英加入;」該組織於2018年10月開始與7家公司合作。

三星(Samsung)曾在其北美總部舉辦的一場活動中提及ODSA,並表示對該組織的支持;該公司美洲市場策略資深總監Craig Orr表示「我們正在擬定公司的chiplet策略,但我個人看到業界對chiplet的濃厚興趣。」

他指出,有不少公司利用3D堆疊技術將一片晶圓可以切割出的元件最大程度地拼在一起,還有不少網路公司將I/O裸晶分開,因此目前的serdes能在未來轉向使用矽光子技術(silicon photonics);隨著成本上升,「能以尖端製程生產晶片的公司越來越少,因此如果我們可以透過chiplet降低成本,可望為我們帶來更多的客戶。」

對於Facebook和其他大型資料中心業者而言,定義矽晶片是定義一系列系統、電路板和模組之後的下一個重大飛躍;因為晶片發熱量已經達到了得廣泛使用液冷方案的程度,這讓他們倍感壓力。

一個成員包括AMD、英特爾、Nvidia、高通(Qualcomm)、賽靈思(Xilinx)和人工智慧(AI)新創公司Graphcore和Habana等的組織,與Facebook合作定義了一個用於冷卻高階晶片的模組;這個被稱為OCP加速器模組(OCP Accelerator Module,OAM)的方案,就跟一個大的咖啡馬克杯差不多大小,其設計目標為最多容納8個晶片,在風扇冷卻系統中支援450W運作功率,在液冷系統中則可支援700W運作功率。

OAM最初只瞄準要求高性能的AI訓練任務,但現在Facebook認為該方案它也能應用於推理系統。Facebook硬體工程師Whitney Zhao表示:「我們定義了一個700W功率的選項,因為確實有公司在考慮採用;」她提及Nvidia與一所大學合作研究的多晶片GPU。

Zhao指出,「450W是界線,超過該界線時,冷卻問題就可能對我們產生很大影響。液體冷卻對資料中心來說是一大衝擊,我們需要時間來打造這種基礎設施,這也是我們現在面臨的關鍵議題之一。」

20190507_chiplet_NT31P2

Open Compute組織成員已經開始將各種規格的系統用於加速器。
(圖片來源:ODSA)

在此同時,Facebook與微軟(Microsoft)已經開始在他們的資料中心中採用包括OAM在內的至少五種系統外觀規格,未來還會有更多。Facebook和合作夥伴將在今年開始為新模組定義通用基板(baseboard)、主機殼和托盤。Zhao表示:「我們需要一個開放的加速器基礎設施,」她也提及參與了ODSA的會議以了解晶片等級的選項。

Netronome的Vinnakota認為,對晶片供應商來說,不斷增加的目標系統種類「令人大開眼界,我們的『著陸區』就有一堆選項;他補充指出:「我們得決定要以哪種模組為目標,再反過去思考該用哪些產品。簡單來說,我們目前還沒有明確的想法,也願意接受任何幫助來搞清楚我們要的是什麼。」

本文同步刊登於電子工程專輯雜誌2019年5月號;責編:Judith Cheng

(參考原文: Chiplet Effort Plays First Proposals ,by Rick Merritt)

活動簡介

人工智慧(AI)無所不在。這一波AI浪潮正重塑並徹底改變科技產業甚至整個世界的未來。如何有效利用AI協助設計與開發?如何透過AI從設計、製造到生產創造增強的體驗?如何以AI作為轉型與變革的力量?打造綠色永續未來?AI面對的風險和影響又是什麼?

AI⁺ 技術論壇聚焦人工智慧/機器學習(AI/ML)技術,涵蓋從雲端到邊緣、從硬體到軟體、從演算法到架構的AI/ML技術相關基礎設施之設計、應用與部署,協助您全面掌握AI最新技術趨勢與創新,接軌AI生態系佈局,讓機器學習更快速、更經濟、更聰明也更有效率。

贊助廠商

發表評論

訂閱EETT電子報