Arm玩轉資料中心市場征途

作者 : 黃燁鋒,EE Times China

前不久的GTC 2021之上,Nvidia總裁暨執行長黃仁勳宣佈Nvidia很快將推出應用於HPC AI的中央處理器Grace——基於Arm架構…

前不久的GTC 2021之上,Nvidia總裁暨執行長黃仁勳宣佈Nvidia很快將推出應用於HPC AI的中央處理器Grace——基於Arm架構。這在資料中心、伺服器、基礎設施產業可說是個大新聞。

雖然去年到今年是Arm在各行各業大獲全勝的兩年,資料中心也頻繁出現Arm的身影——比如亞馬遜(Amazon)自行研發的Graviton2處理器基於Arm架構,富士通針對HPC的A64FX處理器也是基於Arm架構。

 

 

但Nvidia在資料中心的分量,幾乎將Arm推到了最前線,多少有點很快就能把根植於該市場的x86拉下馬的態勢。有關Nvidia的Grace,筆者認為Grace著力的市場具有相當強的針對性,然而,本文將嘗試呈現,拋開Grace不談,Arm如今在伺服器市場,究竟已經發展到了何種程度。

Arm第一次認真對待伺服器市場

Arm一直以來就有突破行動與嵌入式市場的野心,只不過就像Arm在PC之上的10年征程那樣,這個過程需要不斷試錯。Nvidia探索高性能CPU/SoC也不是今天才開始,在10多年前Nvidia就曾宣佈過一個稱為Project Denver的專案,旨在與Arm合作面向HPC市場推CPU產品。

不止是Nvidia,高通(Qualcomm)也曾推出基於Arm架構的Centriq處理器,鎖定企業和伺服器市場;Cavium的ThunderX之前也算是知名的Arm架構伺服器晶片;還有博通(Broadcom)的Vulcan、AMD的Opteron A1100…等,雖然它們之中的大部分都失敗了。感覺從這些專案初期展示的PPT來看,英特爾(Intel)早就應該縮在牆角顫抖了。但事實上,Arm在這一領域始終沒能真正走入主流視野(雖然Arm一直宣稱自己是「基礎設施」設備中市場市佔最高的,包含路由器、交換機、基地台、伺服器等)。

 

 

到近代鯤鵬920這類伺服器晶片問市,以及目前相當活躍的Ampere Computing也在推基於Arm架構的伺服器處理器,Arm才真正在這一領域才逐漸像樣。今年的GTC主題演講上,黃仁勳也宣佈,Nvidia的GPU開始和Ampere Computing、亞馬遜、聯發科等合作夥伴的CPU/SoC搭配,從雲端到邊緣到消費終端。雖然在接受採訪時,黃仁勳說Grace並不會有太大程度影響到現有客戶,但這明擺著就有拆AMD/Intel牆角的意思。

Arm在伺服器、基礎設施,或者說資料中心產品的試錯歷史就不多做回顧了。事實上,Arm過去雖然也一直有試探伺服器市場的動作,但他們始終都沒有針對這些資料中心的基礎設施,推過專門的IP——Arm在該市場的IP,基本與針對消費市場的IP共用。

這一點其實是無可厚非的,大部分晶片製造商的同代核心IP,針對不同市場都會做較大程度的共用。但這也表現出Arm先前針對基礎設施設備並沒有明晰、像樣的市場規劃,這對建構生態系統本來就不利。

 

 

轉機出現在2018年,這一年10月的TechCon上,Arm正式宣佈推出Neoverse系列IP,鎖定伺服器市場,從雲端到邊緣。與此同時還公開了未來3年的產品藍圖,如上圖所示,Arm Neoverse可以理解為伺服器版的Arm Cortex。

這張圖列出了一年推出一個反覆運算的Neoverse版本,比如2019年代號為Ares的處理器核心IP,也就是Neoverse N1。Arm最早的時候宣佈,未來每年反覆運算都將實現30%的性能提升——聽起來比Cortex系列平均增速要快些,也比競爭對手更快。後來的發佈會上,Arm又宣佈N1性能提升,實際相比2018年的Cosmos高出了60% (不過Cosmos據說並不代表一個專門的架構),是原目標的2倍提升——基於SPEC2017整形測試(SPECspeed2017_int_base)。到今年發佈的N2,提升速度似乎又超過預期了,之後將探討更具體的微架構變化。

 

 

2019年2月,Arm正式宣佈推出Neoverse N1與E1平台——這應該是Arm對伺服器市場改朝換代的開始。

當然只換名字勢必是沒用的,先前多篇探討Arm發展史的文章中,都談到了近代Arm的核心IP,在保持低功耗特性的前提下,在高性能方面也有了突破。即便一般的晶片製造商無法做到蘋果(Apple) M1那種程度,高通Snapdragon 8cx也已有應用於PC的可行性。最起碼這個時代,和10年前Nvidia Project Denver時代(Cortex-A15時代)還是有根本差別。

2018年這一年,Arm推出Cortex-A76核心IP,高通針對PC所推的Snapdragon 8cx就應用了Cortex-A76架構。次年問世的Neoverse N1實際上就屬於Cortex-A76微架構的變體,或者說基於Cortex-A76。

Austin家族架構

這兩者都來自Arm Austin設計中心,都屬於Austin家族架構,基於ARMv8指令集。事實上Cortex與Neoverse後續更新版本,包括Cortex-A78、Neoverse V1應該都屬於Austin家族,今年預計要推向市場的新一代Neoverse Poseidon才會採用全新的架構。

 

 

Neoverse V1和Cortex-A76一樣都採用4-wide取指/解碼,11級管線深度,可在需要時縮減至9級。前端、後端的區別都不大。

兩者區別比較大的部分主要在儲存、連接方面——作為伺服器處理器,這也是必然的。L1-I快取(cache)做到硬體級別的完全一致性(coherency),這屬於針對虛擬環境性能的改進;L2新增1MB可選大小(A76是512KB),針對儲存敏感型應用。

 

 

儲存層級結構發生了比較大的變化。N1 CPU是連接到mesh網路上的,即CMN-600 (CMN-600是Arm最早於2016年發佈的SoC互連IP,全稱為coherent mesh network;如上圖所示,連接中間經過了CAL以及mesh網路的XP交叉點;每個CAL層至多連接2個N1——即兩核為一簇)。在Arm的參考設計中,後續再連接到系統級快取——SLC (system level cache) slice,每簇2MB,參考設計64核心N1總共64MB SLC。

 

CMN-600架構。

(來源:Wikichip

 

N1去掉了L3和DSU (DynamIQ Shared Unit)的監聽過濾(snoop-filter)邏輯,CPU核心直接連接到CMN的CHI介面。這樣一來記憶體控制器和CPU核心之間的通訊,只需要經過mesh網路,這好像也屬於伺服器CPU的標配。

7nm製程也是與上述設計內容配套,核心面積整體上還是很小。另外,Neoverse N1一個比較大的變化是最高頻率往上提,發佈時是說達到3.1GHz,電壓也需相應提高,提供更高的單執行緒性能——頻率提高19%,實際上需要44%的功耗為代價,這也很能表現Arm在頻率與功耗的關係上,並沒有什麼魔法。亞馬遜Graviton2就是基於Neoverse N1的晶片,CPU核心頻率只選擇了2.5GHz。

基於消費級產品提升頻率,和Intel、AMD這種傳統伺服器CPU供應商的思路就不同了:x86市場的這兩名玩家,其伺服器CPU架構也與消費CPU共用,但伺服器CPU卻是拉低核心頻率的,這與雙方在消費市場的定位還是有很大關係。

不過即便是這樣,功耗還是有優勢,Arm先前宣稱64核心的N1參考設計總功耗大約為105W;Arm公開其64核心參考設計SPECint_rate2006吞吐測試得分1,310分,整數延遲得分(SPECint2006) 37分,還是能夠表現Arm能效方面的優勢。

對於網際網路和儲存伺服器,Arm推薦8~32核心N1設計,TDP 25~65W;類似5G基地台邊緣端側的設備,16~4核心目標設計,TDP 35~105W;對於超大規模資料中心而言,N1目標設計64~128核心,TDP大於150W。

Arm的Neoverse N1平台參考設計64核心,外加前面提到的CMN-600 mesh網路和64MB SLC快取。台積電7nm製程製造64核心N1參考設計的die size已經快要接近400mm2了,Arm也因此推薦Chiplet這樣的設計,Chiplet裸晶之間透過CCIX互連來通訊。

另外,Neoverse N1平台設計中,可整合SmartNIC——加速網路連接還是目前實現資料中心高吞吐的重要因素。CMN-600可連一些固定功能加速IP,透過CCIX連接協力廠商IP,可實現儲存一致性。

Arm伺服器CPU的效率如何?

之前Arm伺服器處理器IP核心不夠主流,很大程度上在於性能和效率都不怎麼樣。而硬體層面的性能和功耗表現,是爭奪這塊市場的基本要求。

能瞭解伺服器CPU性能的管道不多,像亞馬遜Graviton2晶片都還是亞馬遜自用。不過隨Arm這兩年在伺服器市場的活躍,像AnandTech也開始把性能測試觸及到了伺服器、基礎設施處理器產品之上。

事實上,2018年Cavium的ThunderX2被AnandTech認為是這一領域,Arm平台首次可與Intel、AMD相提並論的處理器產品。之後亞馬遜Graviton處理器的出現也顯示,Arm處理器可以成為伺服器領域的主流。

 

 

除了亞馬遜Graviton2,在Neoverse N1實施方案中,比較具有代表性的應該是Ampere Computing最新的Altra產品線。去年的Altra Q80-33就是用來對比Intel、AMD在伺服器市場的高階產品。

Altra Q80-33主頻最高3.3GHz、80核心;CMN-600 mesh互連,每核心L2選配1MB,以及32MB SLC——每核心分配到的SLC可能少了點。值得一提的是,這顆處理器的TDP標250W,實際上它並不是指常規負載的平均功耗,而是峰值狀態下的平均功耗。其實際功耗大部分情況下低於250W,AnandTech認為依照Intel、AMD的標法,Altra Q80-33的TDP應該在200W左右。

與之對應,Intel不久前剛剛發佈的Ice Lake-SP Xeon處理器,高配型號的TDP 270W (最高配8380為40核心,第十代Core的Sunny Cove架構);AMD代號Milan的EPYC處理器,TDP 280W (最高配64核心,Zen 3架構)。如果光從高配版處理器的售價來看,Ampere Altra的性價比還是高出了一大截。

 

 

 

AnandTech最近剛剛測試了Ice Lake-SP,參測的還包括AMD Milan、Ampere Altra,以及亞馬遜Graviton2。測試項分成多執行緒性能(SPECint2017/SPECfp2017 Base Rate-N)、單執行緒性能(SPEC2017 Rate-1)、每核心性能(針對per core licensing)、JAVA性能(SPECjbb MultiJVM)、LLVM編譯、NAMD性能(因為篇幅有限,上圖只列出了整數多執行緒性能/單執行緒性能)。

單看x86平台,自從AMD Zen 2問世以來,Intel Xeon處理器在性能上表現出了全方位的乏力。上一代AMD EPYC和Intel Xeon,在性能上拉開了比較大的差距,這一代Intel稍稍趕上了一些,但在旗艦產品上,整體仍然存在差距。Intel現在愈發強調系統性能,從自身包括儲存、軟體最佳化等方面的優勢,彌補CPU本身的弱勢,所以AnandTech的測試可能仍然比較片面,況且今年下半年規劃中的Sapphire Rapids會很快上線。

基於Arm Neoverse N1的Ampere Altra是能夠和AMD上一代Rome架構64核心的EPYC打得有來有回的。Neoverse在每核心性能上還是與x86平台有差距;此外Altra在儲存敏感型測試中的表現並不怎麼樣,與其快取配置相關(以及可能與mesh互連有關);另外Ampere在整體系統方案上,雙socket擴展還是不能和Intel/AMD比。不過重視運算力的負載場景下,Altra更多的核心則有優勢;能效方面,如前所述相比x86平台有功耗方面的顯著優勢。

特別值得一提的是,Arm平台的伺服器處理器還存在價格上的顯著優勢。與此同時,Ampere今年還計畫推一款Altra-Max,採用128個Neoverse-N1核心,屬於Arm設計目標頂配。

 

 

雖說以Ampere Altra為代表的Arm處理器在性能表現的某些方面仍不及x86 (主要是AMD),但已經真正意義上對x86的伺服器市場構成相當的威脅。

需要指出的是,加強生態建構是Arm的當務之急,不管是與軟硬體合作夥伴加強合作,還是制定規範。在前兩年發佈Neoverse之時,Arm還發佈了ServerReady合規認證計畫,協助使用者進行Arm伺服器系統的安全、合規部署。

Neoverse N2與V1的發佈

GTC大會上,Nvidia表示Grace CPU會採用新一代的Neoverse架構,但沒說具體是什麼架構。依照計畫表,去年9月,Arm發佈了新一代的Neoverse架構。除了N1反覆運算N2,這次新加了一個V系列:代號Zeus的Neoverse V1。

 

 

Neoverse V1是基於Cortex-X1架構。和Cortex X1一樣,在PPA三者的指針上,Neoverse V1也更偏重性能,部分犧牲了功耗和面積。所以其設計方向和N系列存在差別。因此V1有著更大的快取、核心結構。Arm的資料提到,V1比N1提升50%的IPC,在這個時代下還是相當巨量,實際產品提頻過後要在每核心性能上擊敗x86應該已不是問題。

另外V1會成為首個支援SVE(Scalable Vector Extension)的Arm核心。富士通的A64FX已經率先做出這方面的支援,V1的SIMD單元寬度是A64FX的一半。除此之外,V1也導入了Bfloat16格式支援。

而N1反覆運算款的N2則持續專注於PPA均衡發展,與Neoverse N2對應的Cortex家族架構還未發佈,N2代號為Perseus,據說去年年底Arm就開始進行N2架構授權。N2的目標設計最高核心數已經達到了192個,且TDP增至350W,這應該是也是堆料的突破,Nvidia的Grace CPU是極有可能應用N2方案。

AnandTech猜測,Neoverse N2可能會應用ARMv9指令集+SVE2支援。另外,原本規劃中今年要推出的代號為Poseidon的5nm晶片預計會延後至明年。如今Neoverse的規劃已循序漸進。即便沒有Nvidia,Arm玩轉資料中心市場似乎也是早有預謀的,而Nvidia顯然會成為這一行動的推手。

本文原刊登於EE Times China網站

 

 

 

 

 

加入我們官方帳號LINE@,最新消息一手掌握!

發表評論