高性能運算業界年度盛會——2019年超級運算大會(SC19 @Supercomputing)日前於美國丹佛(Denver, USA)盛大召開;然而,如果以全球五百大(Top500)超級電腦排行榜來看,期間並沒有太多重大新聞發佈。

前23大超級電腦排名與去年一樣,並沒有太多變化,而在前幾大的TOP排行榜上較多變化都與一些系統退役有關。不過,更多上線運轉的新系統都搭配了加速器,其中包括42款新系統採用輝達(Nvidia) Tesla GPU。此外,在此真正吸睛的是富士通(Fujitsu)的節能超級電腦在Green500排行榜中奪冠,它不僅能效表現亮眼效,同時還兼具高性能。

20191203_SC19_NT01P1

SC19在美國丹佛會議中心舉行。(來源:SC Photography)

由於在SC19上沒有什麼新的頂級系統發表,更多的討論仍然聚焦於計劃在2021年開始建構百萬兆級(Exascale)運算的大型超級電腦系統。

目前為美國能源部(DOE)打造下一代Exascale超級電腦的最大贏家是AMD、Cray和英特爾(Intel)。AMD為橡樹嶺國家實驗室(ORNL)打造Frontier系統,同時提供CPU和GPU。英特爾則贏得為阿貢國家實驗室(Argonne National Laboratory;ANL)建造Aurora系統的CPU和GPU設計。第三套系統至今尚未完全公開,但已確定由Cray建構該系統。Cray如今是HP Enterprise旗下子公司(2019年5月收購),負責整合三大Exascale超級電腦設計,並提供其Slingshot高效能可擴充互連技術。

然而,為這些系統(以及Top500的前幾大系統)提供主要元件的兩大供應商——IBM和Nvidia,至今仍未能擠進Exascale新系統之列。目前尚未完成的第三套超級電腦系統稱為El Capitan,這可能是IBM和Nvidia競標成為DOE Exascale專案的最後機會。不過,就算未能拿下El Capitan專案大單,兩家公司在高性能運算(HPC)領域仍有其他許多機會。

英特爾比SC19還搶鏡?

搶在SC19開幕之前,英特爾已經先在SC19所在的丹佛會議中心(Denver Convention Center)附近舉行自家的HPC開發者大會。英特爾此次活動的重頭戲是該公司資深副總裁暨首席架構師兼架構、繪圖晶片與軟體事業群總經理Raja Koduri的演講,率先曝光了為Aurora設計的GPU系統細節。

其CPU和GPU都將採用英特爾尚未投產的下一代7奈米(nm)製程製造。不過,一旦英特爾再度遭遇曾經困擾其10nm製程節點的任何相同問題,很可能就會導致進度膠著。這款下一弋Xeon CPU的代號為Sapphire Rapids。此外,在英特爾活動上最大的亮點是發佈其代號為Ponte Vecchio的Xe HPC GPU——Ponte Vecchio是以義大利佛羅倫斯(Florence, Italy)的老橋命名。

20191203_SC19_NT01P2

英特爾為HPC打造的Ponte Vecchio GPU(來源:Intel)

組成該Ponte Vecchio GPU的晶片是專為HPC工作負載而設計的,結合了不同的向量運算磚。該HPC GPU的主要目標在於處理單精度和雙精度浮點數學運算,但也將用於支援各種普及的人工智慧(AI)資料格式,包括INT8、BFloat16和FP16。

20191203_SC19_NT01P3

每一個Xe晶片都結合了CPU和GPU運算模式。(來源:Intel)

其系統設計將採用英特爾的嵌入式多晶片互連橋接(EMIB)封裝技術,將GPU連接到高頻寬記憶體(HBM)。Ponte Vecchio GPU也將採用英特爾Foveros 3D晶片堆疊技術建構的特殊記憶體介面晶片——Xe Memory Fabric (XEMF),可支援較大快取——‘Rambo’,從而擴展至處理更大的模型。

Ponte Vecchio將成為英特爾的GPU系列的旗艦版,其多晶片模組由每個模組8顆晶片組成,每個HPC GPU包括2個模組。英特爾將使用其EMIB技術連接Xe運算元素至記憶體,XEMF及其Rambo快取將採用Foveros 3D堆疊技術。此外,英特爾還將會推出連接Xe GPU的新款Xe匯流排介面。

20191203_SC19_NT01P4

Ponte Vecchio使用特殊的快取實現HPC擴展。(來源:Intel)

英特爾正打造一種新的軟體堆疊,以期將其所有的運算晶片整合在一個平台上。用於加速運算的oneAPI平台將全面涵蓋CPU、GPU和FPGA;在SC19發表的初版oneAPI是beta 0.5版本,可存取Intel DevCloud。英特爾還提供了Data Parallel C++ (DPC++)新型編程語言,以Khronos的SYCL語言為基礎,並添加了一些英特爾的專用擴展。英特爾將開放oneAPI和DPC ++語言,並希望其他晶片公司參與並採用該平台。

20191203_SC19_NT01P5

Ponte Vecchio高性能運算模組。(來源:Intel)

Aurora超級電腦的核心將會是由2個Sapphire Rapids Xeon和6個英特爾Ponte Vecchio HPC GPU組成的運算sled。連接該GPU的Xe匯流排採用最新發表的CXL (基於PCIe 5.0),並搭配新的開關晶片。

對於英特爾來說,Aurora專案是一項重大挑戰。該公司正為此創建新的軟體堆疊,並計劃採用新的半導體製程和新的封裝技術為Aurora打造新的GPU。這些任務都必須在兩年內完成整合,因而將十分著重於英特爾在軟體、製造和設計方面的整體實力。

20191203_SC19_NT01P6

英特爾Raja Koduri、阿貢國家實驗室副總監Rick Stevens。(來源Tirias Research)

就在英特爾發佈其Aurora Exascale級超級電腦平台細節時,AMD也推出了Frontier Exascale超級電腦的軟體開發平台。Frontier系統完全採用AMD的產品,包括搭載了EPYC CPU和Radeon Instinct GPU。AMD的優勢在於已量產獨立的GPU元件,而英特爾開發人員現在還必須使用其Gen 9整合繪圖晶片。AMD回應Nvidia CUDA的開源語言是ROCM (以及一款對應oneAPI的替代方案),這也是該公司在此的第三項重要發佈。ROCM現可支援Tensor Flow和PyTorch,以實現機器學習(ML)工作負載。但是,ROCM是Frontier開發人員的關鍵軟體平台,Frontier中有大量資金用於ROCM開發。一如往常地,AMD在SC19上也為其EPYC伺服器處理器推廣擴展中的生態系統。

Arm:節能環保至關重要

富士通的超級電腦原型系統採用其自主研發的Arm-based處理器A64fx,兼具出色性能與功效,並榮登今年Green500榜首。它同時也是未採用加速器(如GPU或FPGA)而能躋身前幾大的高性能超級電腦之一。富士通的這套系統中並率先建置了添加可申縮向量擴展(SVE)的Arm核心,因而得以實現強大的浮點運算性能。

20191203_SC19_NT01P7

富士通A64FX HPC處理器。(來源Tirias Research)

Arm的另一件大事是Nvidia將推出採用Arm-based Marvell ThunderX2伺服器主板的參考機器學習系統。Nvidia將為整個Arm生態系統提供全端CUDA工具庫支援。提到CUDA,由於英特爾oneAPI還在beta 0.5版,AMD ROCM是版本3,但Nvidia的CUDA己經發展到10.2版了。這兩大挑戰者顯然都還有很長的路要走,才能達到足以媲美其CUDA生態系統的完整性與成熟度。

微軟(Microsoft)也在SC19上發佈了多項Azure的合作夥伴計劃,例如,與Nvidia聯手提供了「隨選超級電腦」(Supercomputer on demand)。Azure Cloud將在其資料中心中利用Mellanox交換機連接800個Nvidia V100 GPU,並可能為HPC應用設置容器。微軟將其Azure Cloud定位為新的技術平台。

而在SC19之前,Graphcore已經與微軟共同宣佈在Azure Cloud支援Graphcore的AI晶片雲端服務,這對於近來一直相當沉寂的Graphcore來說是一次重大的勝利。

AI新創公司亮相

儘管用於執行HPC工作負載的系統與用於AI訓練的系統之間存在相似之處,但也有著明顯的差異;這也正是專用AI訓練晶片與HPC晶片不同的原因。儘管大多數的AI新創公司多半都不重視這些與HPC系統有關的高性能、雙精度浮點數學運算,但Nvidia的V100則實際將這兩種功能結合在同一塊晶片上。如今,科學家們開始發現搭配AI處理與HPC處理器使用的更多用途,而這也是SC19之所以成為其重要展示展場之故。

晶圓級AI新創公司Cerebras也在大會上展示其CS-1系統;在此之前,該公司發佈其晶圓級晶片——Wafer-Scale Engine (WSE)一度震撼業界。Cerebras由於取得了阿貢國家實驗室和勞倫斯利弗莫爾國家實驗室(Lawrence Livermore National Laboratory;LLNL)的合約,如今正備受業界關注。

20191203_SC19_NT01P8

Cerebras在SC19上展示搭載其晶圓級晶片的CS-1 AI電腦。(來源Tirias Research)

除了Cerebras,其他AI新創公司也在SC19亮相,包括Cerebras、Graphcore、Groq和SambaNova等公司。SambaNova藉此機會發表其首款晶片,並披露其針對AI的軟體定義硬體途徑相關細節。該公司的可重配置資料流單元(RDU)使用7nm製程,以及一系列混合運算、記憶體、定址產生與合併結果的單元組成。Groq則稱其以軟體定義的硬體平台結合了記憶體和運算單元,能夠在一個晶片中執行1 PetaOp的運算效能。Groq的首款晶片採用14nm製程技術製造。

對於英特爾和AI新創公司來說,今年的超級運算大會無疑是一個重大的機會,但是業界對於2021年的Exascale級超級電腦系統更充滿了期待。隨著明年可望看到更多的Arm設計方案,預計在節能處理方面會有更多的創新。

編譯:Susan Hong

(參考原文:The Race to Exascale at Supercomputer 2019,by Kevin Krewell)