「摩爾定律」(Moore’s Law)是今年晶片領域年度盛會——Hot Chips大會上兩大專題演講的關注焦點。美商超微(AMD)執行長蘇姿丰(Lisa Su)解釋為什麼應用必須超越摩爾定律,而台積電(TSMC)技術研究副總經理黃漢森(Philip Wong)則強調摩爾定律不死且依然有效(至少對於電晶體密度而言)。

Lisa Su認為,先進晶片的成本將持續增加,這也就是為什麼AMD開始轉向小晶片(chiplet)策略。黃漢森雖然未提及成本,但提供了多種形式的多晶片封裝解決方案,似乎也再次強調與Lisa Su同樣的論點。

hotchipskeynote_2019

Hot Chips大會主席John D. Davis為年度盛會Hot Chips 2019揭開序幕(來源:TIRIAS Research)

Hot Chips大會定於每年八月舉行,今年在美國史丹佛大學(Stanford University)紀念禮堂(Memorial Auditorium)舉行的開幕式人潮盛況空前,吸引了大約1,200人參與這場活動。究竟是因為簡報內容精彩可期?活動的宣傳與推廣成功?還是近期流向機器學習晶片的資金泡沬化?雖然很難確定是什麼原因吸引如此熱情的參與,但無疑地,「機器學習」(machine learning)是今年Hot Chips活動的主軸,有一半的簡報都與機器學習和神經網路處理有關。

Cerebras:晶圓級引擎

在今年Hot Chips發表的簡報中,最受矚目的要算是Cerebras的晶圓級機器學習處理器了。這是該公司自成立以來的首次詳細介紹,但在其簡報中僅簡單提到建構晶圓級晶片所需的技術。Hot Chips大會主席John D. Davis介紹它是Hot Chips大會有史以來「最熱門的晶片」(hottest chip ever)¬¬¬¬——儘管簡報中並未著墨太多,但據稱該晶片功耗為15kW,以該晶片每邊寬約8.5英吋的尺寸規格而言,這一功耗實在讓人難以想像。該公司確實擴大了我們對於何謂打造一款「大」晶片的概念。

Nvidia:單晶片堆疊‘Compute tile’

當Cerebras致力於打造並量產號稱史上最大晶片之際,其他供應商則積極尋求如何解析至今所開發的更大尺寸晶片。或許最大的反差就是來自Nvidia Research開發的專案。Nvidia Research的RC18測試晶片專為可擴展的深度學習推論而設計,在單一晶片封裝中堆疊了36個「運算磚」(compute tile)裸晶。基於16nm製程的RC18超小核心運算磚可實現9.5TOPS/W總共高達128TOPS的運算能力。採用接地參考信令(GRS)的高速互連支援每條鏈路100Gbps的多播功能,以及基於代碼(token-based)的晶片到晶片協議,以連接封裝中的裸晶。近十位研究人員採用高階抽象(C++)自動化設計和敏捷設計,在6個月的時間內讓晶片從規格制定到投片,顯示一支小型團隊即可產生快速上市的解決方案。

MCP和Chiplet技術

多晶片封裝(MCP)和小晶片技術也是整個大會期間的亮點,包括AMD、英特爾(Intel)、Nvidia和TSMC都有相關的產品和技術發佈。英特爾展示一種使用Foveros的晶片堆疊技術將完整Lakefield PC平台(處理器和記憶體)封裝成極其緊密封裝的方法。Lakefield並採用異質處理器配置,在一個晶片中整合了一款大型的x86 CPU核心和四個較小的Atom核心。該10nm+ Lakefield處理器晶片的待機功耗極低,並使用電源管理晶片(PMIC)進行電源管理。下圖顯示執行繪圖密集型工作負載時的峰值功率約為7W。

lakefieldfoveros

Lakefield Foveros(來源:TIRIAS Research)

基準測試

另一個有趣的簡報著眼於機器學習晶片的基準測試。支持MLPerf的產業聯盟介紹其最新的機器學習訓練基準。該聯盟包括一些重量級業者,包括Arm、英特爾、Facebook、Google、Nvidia和賽靈思(Xilinx)。即使相關規格的製定仍處於早期發展階段,幾家供應商已經先行發佈了初步的數據。遺憾的是,機器學習推論的基準尚未完成。此外,MLPerf並未針對更嚴格的稀疏資料應用進行基準測試。

針對稀疏資料的問題,Facebook討論其Zion平台如何進行機器學習訓練。有趣的是,Facebook還統一其CPU和加速器訓練平台,以便使用新的BFLOAT16資料格式(BFLOAT16基於IEEE 32位元浮點格式,尾數被截斷至7位元)。

Habana、華為、英特爾和Xilinx

Habana、華為(Huawei)、英特爾和Xilinx也分別發表其機器學習和神經網路晶片。華為詳細介紹其達芬奇(DaVinci)神經網路(NN)加速器。DaVinci設計獨特,專為從物聯網(IoT)裝置擴展到資料中心而設計。該公司正致力於將NN處理器整合到其多樣化的晶片設計中。華為的簡報進行方式也很特別,由於主講人未能順利申請到美國簽證,因而準備了高畫質的視訊簡報,之後再以電話會議的方式開放提問。

英特爾發表其Spring Crest (NNP-T) 機器學習訓練晶片和NNP-I推論引擎。 NNP-T元件基於Nervana晶片架構,現已移植到台積電的16nm製程。這款內含270億顆電晶體的晶片尺寸約680mm2,採用1200mm2中介層以及32GB HBM2-2400記憶體。該晶片設計符合Facebook的開放加速器模組(OAM)外形,並支援BFLOAT16資料格式。

英特爾另一款晶片——NNP-I Spring Hill推論晶片將採用M.2 PCIe外形配置。它針對約4.8TOP/W的主要資料中心推論工作負載,提供同類最佳的性能/功效比。Spring Hill採用英特爾10nm製程製造。

Habana更新去年推出的Goya推論卡,並介紹現正進行評估的Gaudi訓練板最新發展。如同英特爾的Spring Crest,Gaudi訓練晶片也支援BFLOAT16資料格式,並以Open Compute Project (OCP) OAM提供。Gaudi的晶片到晶片互連採用標準RDMA RoCE over PCIe 4.0介面。

Xilinx的7nm Versal VC1902 ‘ACAP’晶片擁有370億顆電晶體和大約1GB的片上記憶體。Versal於2018年推出,現正評估樣片中。

儘管在Hot Chips湧現一波機器學習和神經網路處理器浪潮,但也有一些更加傳統的產品與技術展示,包括AMD的Zen 2 (Matisse處理器)和Navi GPU、Arm的N1伺服器核心、IBM的POWER 9 AIO、英特爾的Lakefield PC處理器、Nvidia的圖靈(Turing) GPU及其光線追蹤加速功能等。

晶片拆解也是IBM Power 9 AIO及其Open Memory Interface (OMI)的關鍵部份,它提供了一種從處理器晶片中移除記憶體控制器並將其置於記憶體模組的方法。該OMI邏輯約為DDR記憶體驅動器面積的六分之一,透過OMI使用跨平台的CPU晶片記憶體。微芯科技(Microchip)推出了一款OMI DDR4記憶體緩衝晶片。IBM並介紹其OpenCAPI加速器介面,指稱其開放與英特爾CXL標準融合的途徑。

Hot Chips是業界發表最新技術的獨特場合,許多不在其他會議中談論的晶片通常會在此處亮相。例如微軟(Microsoft)深入探討HoloLens 2採用的晶片,而特斯拉(Tesla)則討論在其內部設計的車用客製ADAS晶片。

tesla ADAS card

TESLA ADAS控制器配備冗餘客製晶片(來源:TIRIAS Research)

除了在Hot Chips大會上發表的簡報資料極其重要且相當技術性,與會者也從這場盛會中發現了其他的樂趣。今年,英特爾在史丹佛大學校園附近舉辦了一場特別的展後活動,Raja Kaduri和Jim Keller即在此接受訪問。

Hot Chips無疑是與晶片業重量級業者和重要人士會面與交流的絕佳場所。這場盛會一向是展現處理器產業尖端技術與最新發展趨勢的風向球,今年也不例外。如果說Hot Chips 2019是否透露任何跡象,那就是這一場機器學習/人工智慧(AI)晶片革命正方興未艾。

編譯:Susan Hong

(參考原文:Hot Chips 2019 Has Never Been Hotter, or Bigger,by Kevin Krewell)