美國的一項研究專案旨在培育一個能以隨插即用的「小晶片(chiplet)」來設計半導體的生態系統;而在此同時,英特爾(Intel)和賽靈思(Xilinx)等廠商則是使用專有封裝技術,來讓自己的FPGA產品與競爭產品有所差異化。

在未來八個月,美國國防部高等研究計畫署(DARPA)的「CHIPS」(Common Heterogeneous Integration and Intellectual Property Reuse Strategies)專案,期望能定義與測試開放晶片介面(open chip interfaces),並在三年內讓許多公司運用該連結介面來打造各種複雜的零組件。

英特爾已經參與此項專案,其他廠商預計也會馬上跟進;這位x86架構的巨擘正在內部爭論是否要公開部份的嵌入式多晶片互連橋接技術(embedded multi-die interconnect bridge,EMIB),而在8月下旬於美國矽谷舉行的年度Hot Chips大會上,英特爾公布了目前EMIB技術的大部分細節。

Xilinx為CCIX (Cache Coherent Interconnect for Accelerators)互連架構的領導者,該公司的一些高階主管表達了對於該DARPA專案的興趣,並宣布其第四代FPGA使用台積電(TSMC)專有的CoWoS 2.5D封裝技術。然而究竟哪一種方式能為主流半導體設計降低成本、帶來高頻寬連接,至今尚不明朗。

20170901_HotChip_NT02P1

英特爾將EMIB (中間)定位為電路板與裸晶之間的連接技術
(來源:Intel)

使用有機基板(organic substrate)的多晶片模組(MCM)已經行之有年,除了相對較低密度的問題,有些供應商正在想辦法降低成本。台積電率先推出了一種扇出型(fan out)晶圓級封裝,用來封裝蘋果(Apple)最新iPhone手機中的應用處理器及其記憶體,該技術提供比多晶片模組技術更大的密度,但用來連結處理器仍不夠力。

高階的AMD與Nvidia繪圖晶片已經和Xilinx一樣,使用像是CoWoS的2.5D技術,將處理器與記憶體堆疊連結在一起;不過一位曾拒絕在Xbox上使用此技術的微軟(Microsoft)資深工程師提到,目前這些技術對於消費性電子產品來說仍太過昂貴。

如同微軟,AMD的Epyc伺服器處理器不考慮採用相對昂貴的2.5D 堆疊技術,此處理器是由有機基板上的四顆裸晶(die)所組成。在Hot Chip大會上介紹該晶片的AMD代表Kevin Lepa表示:「較傳統的多晶片模組是較為人知的技術,成本更低…某些方面(效能)會有所犧牲,但我們認為這是可以接受的。」

一些人希望DARPA的研發專案能盡速解決複雜的技術與商業瓶頸,Xilinx的一位資深架構師即表示:「我們希望小晶片能變成更像是IP。」

在2014年,英特爾首先將其EMIB技術形容為功能媲美2.5D堆疊技術、但成本更低的方案,某部分是因為它只使用一部份的矽中介層(silicon-interposer)來連接任何尺寸的裸晶兩端。Altera在被英特爾併購前嘗試過該技術,其現在出貨的高階Stratix FPGA使用EMIB來連結DRAM堆疊與收發器。

EMIB介面與CCIX進展

在Hot Chips大會上,英特爾介紹了兩種採用EMIB技術的介面,其一名為UIB,是以一種若非Samsung就是SK Hynix使用的DRAM堆疊Jedec連結標準為基礎;另外一個稱作AIB,是英特爾為收發器開發的專有介面,之後廣泛應用於類比、RF與其他元件。

20170901_HotChip_NT02P2

英特爾的AIB介面內部架構
(來源:Intel)

對於EMIB來說,這兩者都是相對較簡單的平行I/O電路,英特爾相信比起串列連結介面,可以有較低的延遲性與較好的延展擴充性(Scaling)。到目前為止,採用上述兩種介面的模組已經在英特爾的3座晶圓廠以6種製程節點進行過設計。

英特爾還未決定是否將公佈AIB,也就是將之轉為開放原始碼;該介面在實體層的可編程速度可高達2 Gbps,即在一個EMIB連結上支援2萬個連接。

英特爾FPGA部門的高級架構師Sergey Shuarayev表示:「純粹就頻寬來說是很大的,而且我們可以建立龐大的系統──比光罩更大;」他表示EMIB元件頻寬會比2.5D堆疊大6倍。此外密度也會提高,新一代的EMIB技術將支援35微米(micron)晶圓凸塊,現今在實驗室中使用10mm連接的情況下,密度比目前使用的55mm凸塊高出2.5倍。

Shuarayev認為EMIB技術能被用以連結FPGA與CPU、資料轉換器與光學零組件,比起2.5D堆疊技術來說,成本更低、良率更高;他補充說明,部分原因是它能從FPGA中移除難以處理的類比區塊。

Xilinx則在Hot Chips大會上推出VU3xP,為第四代的晶片堆疊方案,包含最多3個16奈米FPGAs與兩個DRAM堆疊;估計明年4月前可提供樣品。這也是第一款使用CCIX介面的晶片方案,支援四個連結主處理器與加速器的一致性連結(coherent links)。

基於PCIe架構的CCIX最初運作速度為25 Gbits/s,有33家公司支援此介面,目前IP方面由Cadence與Synopsys提供;Xilinx副總裁Gaurav Singh表示:「有許多處理器正導入此標準。」此外,Xilinx採用堅固的AXI開關,自行設計了DRAM堆疊區的連接(如下)方式,與各種記憶體控制器互通。

20170901_HotChip_NT02P3

Xilinx以16個256位元、運作速度達到450MHz的AXI埠連結8個記憶體控制器,將其最新的FPGA連接到DRAM堆疊
(來源:Xilinx)

英特爾與Xilinx都提到了設計模組化晶片時所面臨的一些挑戰。CoWoS製程要求晶片的最大接面溫度維持在攝氏95度以下;Singh提到,DRAM堆疊每減少一層,溫度大約會提高兩度;Shumarayev則表示,英特爾要求晶片供應商為堆疊出貨的裸晶都是KGD (known good die),因為封裝壞晶粒的成本問題一直是多晶片封裝市場的困擾。

編譯:W. Lin;責編:Judith Cheng

(參考原文:Hot Chips Spotlights Chip Stacks,by Rick Merritt)