Xeon叫陣AMD Milan Arm陣營笑作壁上觀

作者 : 邵樂峰,ESMC

英特爾與AMD在高性能伺服器處理器市場上的爭鬥,一直是產業最關注的事件...

3月15日,AMD發佈了採用台積電7nm製程製造的全新EPYC 7003系列處理器(代號Milan),其中包括了代表著伺服器CPU性能新高的AMD EPYC 7763處理器。在最多可達64顆的「Zen 3」核心、全新等級的每核心快取記憶體、PCIe 4連接、更多I/O和記憶體傳輸量等先進科技的加持下,EPYC 7003系列處理器每時脈指令集(IPC)性能提升高達19%。

AMD方面表示,EPYC 7003系列是目前全球最好的資料中心晶片,超越了競爭對手英特爾(Intel)。預計到2021年底,EPYC處理器將會與包括AWS、思科、戴爾科技、Google、HPE、聯想、微軟Azure、甲骨文雲端基礎架構、Supermicro和騰訊雲端等在內的眾多合作夥伴攜手合作,為其生態系統帶來超過400個雲端實例,以及超過100個新OEM平台。

 

AMD圍繞EPYC處理器建構的生態系統。

 

被AMD搶了風頭的Intel自然不甘落於人後。

4月7日,Intel宣佈推出第三代Xeon可擴展處理器(代號Ice Lake),其主要亮點包括:採用Intel最新的10nm製程,單個晶片最多包含40個核心。與上一代20核心Cascade Lake相比,IPC性能提升20%;在主流資料中心工作負載上性能平均提升46%;74%的人工智慧(AI)推理性能增加;與5年前的老系統相比,平均性能提升2.65倍。

值得一提的是,第三代Xeon可擴展處理器是Intel首個主流雙插槽並啟用SGX軟體防護擴展技術的資料中心處理器,也是Intel唯一一個內建AI加速的資料中心處理器。此外,作為多代策略的延續,第三代Xeon內建Intel密碼操作硬體加速。

 

 

而為了應對資料中心AI負載任務的增長,第三代Xeon處理器透過代際硬體平台改進、軟體最佳化,在機器學習使用案例中,例如XGBoost演算法、Kmeans演算法等方面,實現了1.3~1.6倍的性能提升;針對深度學習應用中常見的影像辨識、影像分類、語言處理等,DL Boost指令實現了1.45~1.74倍的性能提升。

 

 

Intel官方提供的資料顯示,自2017年推出第一款Xeon可擴展處理器以來,Intel不但向全球客戶交付了超過5,000萬顆Xeon處理器,部署了超過10億顆Xeon核心,還成功的將用戶每台虛擬機器的基礎設施成本降低了25%,且性能保持不變,並將超過80%的TOC轉化為已有實際收益的部署。目前,超過800家雲端服務供應商部署了基於Xeon可擴展處理器的伺服器,超過1,000個客戶進行了TOC認證。

不打「核」戰

Intel方面認為,單純比拼「核心」數的做法既不可行,也不科學。因為雖然大多數產業標準的基準測試都是最大傳輸量,但是對於資料中心電腦架構來說,不僅需要提高傳輸量,同時也需要具備最佳的回應能力,這樣才能更好地處理資料中心普遍的工作負載。為了實現這一點,處理器既需要應對傳統的工作負載,也要能夠應對新興的資料工作負載,性能需要在處理器內部和外部進行良好拓展,無論是節點內部還是節點外部。

Intel官方提供了與AMD Milan在快取延遲、記憶體延遲等方面的參數對比:

在包括L1、L2、L3層級的快取延遲方面,最關鍵的是L3層面的快取延遲。第三代Xeon可以直接訪問這一層快取,從而獲得一致的回應時間。Milan包括8個不同的矽晶片進行運算,每個都有獨立的快取,當資料在本地快取中,即核心所在的位置旁邊,回應時間會很短;但如果資料不在本地快取,需要透過I/O請求,到另一個運算矽晶片來檢索資料,再透過I/O回到發出申請的核心,因此本地快取訪問和遠端存取之間回應的時間差別很大。

 

 

記憶體延遲方面,Intel方面強調了最大的DIMM能力和速度能力。第三代Xeon有8個記憶體通道,可以在最高的記憶體頻率下達到3,200 DIMM性能,而Milan只有一個記憶體通道可以最快的速度運作,到第二個DIMM時,速度下降會降低記憶體的傳輸量。

在DRAM延遲方面,在本地插槽的情況下,從記憶體中獲取資料最快需要多長時間?從第二個遠端插槽中獲取資料又需要多長時間?Intel方面強調了第三代Xeon組合產品的優勢,矽晶片旁邊就是直接記憶體控制器,因此本地插槽延時更短,遠端插槽延時性能更優,最高可以快30%。

記憶體總能力上,Intel的持久記憶體可以實現每個插槽6TB記憶體,這一能力幾乎可以讓用戶在盡可能靠近處理器的位置隨時提取資料,做到快速訪問。Intel技術專家表示,以上這些好處不一定在傳輸量上能顯示出來,但實際回應時間在應用中非常關鍵。

 

 

在深度學習和推理性能方面,第三代Xeon比AMD Milan提高25倍。在20個最常見的機器學習、深度學習模型的訓練和推理比較中,第三代Xeon性能是Milan的1.5倍,是Nvidia A100 GPU的1.3倍。

 

 

面對資料中心應用將AI加速任務卸載到專用處理器上的趨勢,Intel借第三代Xeon發佈之際再次表明:第一,Xeon CPU是AI加速的絕佳選擇,加速發生在CPU,可以將工作負載提升到新的水準;第二,資料中心基礎架構的高利用率非常關鍵,決定了使用者在不同類型工作負載中能夠獲得的容量彈性,因此在最佳TCO基礎上的分散式服務最為重要,而不僅僅是在孤立的節點基準測試上做到最佳。

Intel市場行銷集團副總裁、中國區資料中心銷售總經理陳葆立表示,整個產品的反覆運算做好平衡非常重要,不管是核心數、還是不同工作負載的加速指令和配套產品。目前採用PCIe 4.0 64個通道,已經可以顯著提高頻寬和性能。隨著分散式運算、微服務在大規模資料中心的應用,I/O的延遲和一致性對於大規模服務的實際交付非常關鍵。Intel透過對這些I/O流、在插槽中的處理情況,以及與CPU上其餘服務對話模式的改進,從而保證能夠提供最佳的規模系統性能,滿足遍佈大量節點和整個資料中心的需求。

Arm陣營「笑而不語」

對伺服器領域的追逐從未停止的,不僅有X86架構,還有Arm陣營。

2018年10月,Arm首次宣佈推出針對雲端到邊緣基礎設施產品Neoverse及其初步發展藍圖,並承諾平台效能30%的年增長率指標將持續到2022年及以後。2020年9月,Neoverse再度進階,新增兩個全新的平台——Neoverse V1平台,以及第二代的N系列平台Neoverse N2。

 

Arm Neoverse平台發展藍圖。

 

根據Neoverse平台PPA設計原則,N系列強調性能、功率、面積得到同等考量,擅長可擴展;E系列主要關注效率,對於網路流量和資料應用程式非常有效,在功耗和面積的縮減上進行最佳化;V系列旨在提供最佳性能,需要添加更大的快取、視窗和佇列,相對來說會消耗更多面積和功耗。

Arm方面認為,除了與工程團隊的努力和投入密不可分外,Arm自身軟體生態系統的逐漸成熟,以及異質運算的推動同樣功不可沒。

其他廠商最新動態

3月15日,隸屬於Arm陣營的安晟培半導體(Ampere Computing)公佈了雲端原生伺服器處理器Ampere Altra Max樣片的基準測試資料。Altra Max是Ampere繼2020年3月發佈的80核心Altra處理器後即將推出的新產品,核心數量達到128顆,專為雲端原生架構打造。在軟體媒體編碼測試中,Ampere Altra的編碼性能已經領先於當前的x86處理器,而Ampere Altra Max則比Ampere Altra更強。

 

Ampere Altra媒體編碼性能與x86處理器比較。

 

3月17日,高通(Qualcomm)宣佈以14億美元的價格完成NUVIA的收購。在被問及是否會繼續投資NUVIA最初進入的伺服器和企業市場時,高通方面回應稱,這不是收購的主要目標或動機,但是高通未來會對此保持開放的態度,讓NUVIA團隊探索這些可能性。

3月29日,AWS宣佈,新一代記憶體最佳化實例Amazon Elastic Compute Cloud (Amazon EC2) X2gd已全面可用,它由AWS自行研發、基於Arm架構的Graviton2處理器提供支援。新的X2gd實例與當前基於x86的X1實例相比,性價比提升可高達55%;而與其他基於Graviton2的實例相比,每個vCPU配置的記憶體容量更大,使客戶能夠更高效地執行記憶體密集型工作負載,例如記憶體中資料庫、關係型數據庫、電子設計自動化(EDA)工作負載、即時分析和即時快取伺服器等。

結語

儘管受到新冠病毒疫情的影響,但來自資料中心的需求仍然源源不斷,同時,5G商用也促使全球消費者和企業資料訪問出現了快速變化。Canalys資料顯示,2020年第一季全球雲端運算資本支出增長34%,達310億美元,創歷史新高。根據Omdia的資料,2020年第一季全球伺服器出貨量為330萬台,同比增長超過30%,創下了有史以來第一季的最高紀錄,而2020全年出貨量達1,290萬台,比2019年增長8.3%。

顯然,一些過去需要2~4年時間才能形成的趨勢,現在已經被縮短到了幾個月。因此,越來越多的資料中心營運商不斷加大對資料中心的投資,以應對經濟領域數位化轉型的快速推進。可以預見的是,在資料中心領域,打造強有力的批量生產與交付的生態系統和供應鏈,協助使用者加速上市時間,簡化從邊緣到雲端基礎設施的部署,將成為晶片廠商未來競爭的焦點。

本文原刊登於ESM China

 

 

 

 

 

 

加入我們官方帳號LINE@,最新消息一手掌握!

發表評論