RISC-V有機會搞定高效能市場嗎?

2023-03-14
作者 黃燁鋒,EE Times China

雖說RISC-V這兩年發展神速,但晶片出貨量的大宗、大部分應用還是集中在了嵌入式領域。不過RISC-V在高效能領域仍然有所斬獲,這是否意味著RISC-V有機會做大高效能市場?

要是直接在ChatGPT上問RISC-V未來有沒有可能入駐高效能運算(HPC)領域,或者如何佔領HPC市場,以ChatGPT「端水大師」的秉性,可能也不會正面回答。

這個問題轉換一下思路,遙想2007年前後,x86在HPC市場全面取代其他架構。當年x86是怎麼成功,或者說怎麼達成此等目標,理論上不就是現在RISC-V可以參考的嗎?於是筆者問了ChatGPT,x86如何在HPC領域逐漸取代其他指令集,答案如下:

 

 

系統回覆的方向差不多,除了第四點「availability」的「x86處理器有很多供應商」(或許它的意思是很多OEM供應商)是瞎說以外,其他幾點也是某指令集在某市場有所斬獲的通用答案。

在此之前,本文還是要把「高效能領域」簡單界定。本文所說的RISC-V「搞定高效能市場」,理論上不應局限於HPC、超級運算,也在PC、汽車、資料中心這些部分。「高效能」是與「低功耗」相對的——而低功耗是指行動、嵌入一類的市場。

但不同細分領域的市場發展都有差異。比如說一般企業資料中心伺服器的處理器,並不是家用PC處理器多加點核心和儲存資源那麼簡單。而且PC與資料中心的生態需求差異也很大。所以本文暫且將「高效能」局限在資料中心,明確排除汽車、PC。

其實資料中心也有不同的類別。去年Nvidia把「資料中心」分成了6個大類,分別是超級運算中心(超級運算)、企業運算資料中心(企業內資料中心)、大規模資料中心(hyperscaler,佔地超過1萬平方英尺,伺服器超過5,000台的資料中心)、雲端運算、AI工廠、邊緣資料中心(更接近端側的資料中心)。這些資料中心的效能需求、技術方向都有不同。

 

 

雖說RISC-V這兩年發展神速,但晶片出貨量的大宗、大部分應用還是集中在嵌入式領域,有很大一部分核心出貨量是不直接針對用戶。如中國滴水湖論壇每年都在提的RISC-V生態成果、威騰電子(WD)硬碟內RISC-V核心,甚至蘋果(Apple)都準備將一些不鎖定用戶的功能切到RISC-V指令集上。

而在高效能部分,RISC-V其實也算有一些成果。最典型的像是Google TPU、平頭哥在RISC-V高效能領域的規劃,還有Ventana針對資料中心的RISC-V處理器,以及Intel與巴賽隆納超級運算中心(BSC)合作準備為超級運算打造RISC-V晶片——雖然這個計畫遭受Pathfinder計畫停止,而可能終止。

以其發展年份,及其對於各部分市場的滲透,RISC-V的發展速度應該是x86、Arm歷史上都很難企及的。看起來是前景一片大好,那麼RISC-V在高效能市場會有多大的機會?

「高效能」首先自然是效能問題

ChatGPT列出的當年x86在HPC市場成功的一大原因是「效能」。這當然是某一個指令集的處理器產品能夠進駐高效能市場的先決條件,否則怎麼叫「高效能」呢?

在高效能核心架構方面,一直在積極推進的應該是作為IP供應商的SiFive。這家公司現在有兩個HPC上相對重要的客戶:Google和NASA。在具體的產品上,SiFive一直在更新高效能系列核心IP,最新的P670是13級流水線、4發射的亂序架構,在面積效益上對應的是Arm Cortex-A78。

另外MIP現在也加入了RISC-V行列(雖然聽起來很奇特)。該公司有個eVocore P8700核心,從8-wide取指、7-wide執行來看,這是個超寬大核心;每個cluster最多8核方案,可擴展至64 cluster、512核心;應用方向是汽車、資料中心、HPC等。還有像是平頭哥玄鐵C910,以及Ventana。

不過當高效能涉及到到大規模資料中心、超級運算之類的程度,那麼僅有高效能核心是遠遠不夠的。PC這類設備的高運算力需求可能在3D遊戲、視訊渲染之類的場景上,這些工作要求效能突發、單核高頻率。但對資料中心和超級運算而言,大量程式同時運作的平行吞吐才是最重要的——所以我們看到針對伺服器的處理器雖然核心數量超多,但核心頻率卻並不怎麼高。

一般超大規模資料中心或者雲端要回應大量的使用者請求,所以需要平行和吞吐。而具體到超級運算上,超級運算解決氣候預測、蛋白質折疊、量子運算、模擬模擬之類的問題,這些問題的任何一個都要拆解成需要大規模平行的細分問題。這樣的規模一旦大到一定程度,則不是一顆或者幾顆處理器、加速器晶片可以解決。

所謂的「集群」部署,是指大量處理器不僅需要跨晶片做通訊,還需要跨板、跨伺服器節點做通訊。這類系統的瓶頸可能在die與die、晶片與晶片、板與板、節點與節點之間的通訊延遲和頻寬方面——換句話說就是大量處理器同時工作時,協同的能力和效率。當然完成不同的任務,對核心與系統的需求也可能存在很大差異,但大方向就是如此。

某種程度上,x86在資料中心的某些細分領域,比如HPC AI領域顯現出頹勢,與其系統內部互連方式(如CPU與加速器的互連)、節點互連與通訊的效率有關係——尤其是AI追求的資料處理過程中的資料傳輸大吞吐。所以在Nvidia宣佈Arm架構的Grace CPU之際,NVLink 4作為CPU與GPU的的通訊頻寬相較於PCIe驚豔了很多人;還有後來的Grace-Hopper,die-to-die高速互連。

 

 

這涉及到的是周邊生態與系統成熟性問題。可能絕大部分讀者對於「生態」的理解是局限在下游的應用生態。但當把眼光放到上游、周邊和下游,生態的問題可能就沒那麼簡單了。不僅是互連,還有儲存支援等處理器之外一整套系統的效能和效率問題。當這些共同被提起時,RISC-V的高效能之路可能還有些漫長。

之前Arteris IP解決方案與業務開發副總裁Frank Schirrmeister在接受外媒採訪時曾說:「對於HPC而言,處理器核心的時脈頻率、核心數量、核心可擴展性,以及對應的互連方式都是關注點所在。但記憶體頻寬、能效、增加自有向量指令集之類的問題也同樣重要。」

Rob Aitken (Synopsys fellow)也說過,資料是要從記憶體載入到處理器中,而且還需要在加速器內做資料處理,並寫回到記憶體裡,「整條路徑上,各環節都可能成為瓶頸。uncore部分很關鍵,儲存系統也很關鍵。在完成特定的任務時,需要搞清楚系統架構的瓶頸在哪兒。這些都在CPU以外。」

 

 

BSC之前就和其他大專院校聯合開發基於RISC-V架構的HPC系統Monte Cimone。介紹中提到Monte Cimone總共8個運算節點,每個節點內都採用SiFive的U740晶片(基於SiFive HiFive Unmatched),每個晶片裡4個U74核心,頻率最高1.2GHz。一個節點系統內16GB DDR4記憶體、1TB NVMe儲存。

領銜這套系統研究的義大利超級運算中心CINECA表示,雖然RISC-V現在的發展速度很快,軟體堆疊也快速走向成熟,但是「顯然SoC的核心效能與數量,最終所能夠達到的效能,仍然無法與成熟的Arm和x86核心相較」,這就是系統層面真正展現出來的效能水準。

生態、效率和成本能否步入良性循環?

Intel還沒有喊停RISC-V Pathfinder項目時,Intel超級運算業務總經理暨副總裁Jeff McVeigh曾說HPC要應用RISC-V還有好多年的距離(many years away)。「除了設計晶片以外,還有很多的工作要做。」McVeigh說,「程式碼移植、效能、各種各樣的事情,還有很長的路要走。」

雖然Intel已宣佈停止Pathfinder專案,但1月時,Intel發言人提到,這一決定不會影響IFS相關業務開展和Horse Creek平台。其實之前Intel和SiFive一起推的Horse Creek還是頗受關注——這是個高效能demo,本身是個RISC-V軟體發展板。上面的RISC-V晶片據說用了尚未大規模量產的Intel 4製程,主體是SiFive P550核心;另外也是為了表現Intel自己的PCIe 5.0與DDR5 PHY和Synopsys控制器、其他協力廠商IP的互通性。

Intel去年在演示這塊板子的時候,還在上面跑了遊戲和各種應用。而Horse Creek平台的問世,前提是Intel的IFS Accelerator生態聯盟——這個專案主要是為了加速晶片原型設計和流片;與晶片設計上游的EDA、IP和設計服務企業進行深度合作來推進。

IFS Accelerator就是個綜合工具套裝,其中包含有經過了驗證、針對Intel製造製程的最佳化IP組合,比如說標準單元庫、儲存、GP I/O、類比、I/F IP等。SiFive也是IFS Accelerator的成員之一,之前SiFive說:「SiFive會賦予客戶建構RISC-V運算平台的能力,為其最佳化市場應用。Intel廣泛的IP組合,補強了SiFive的高效能處理器IP。」

 

 

從「生態」上游的角度來看,晶片設計的相關工具、各種IP、軟體,以及晶圓代工廠的配合支持,更是RISC-V這類新生架構需要面對的問題。而Horse Creek是一個代表性產品,Schirrmeister指出,晶片的最終表現絕不只是ISA甚至RTL層級的問題,「如果去看各種IP,其成功一定是和物理工具、物理實現相關。單說互連,也只是系統的一部分,需要IP與實施流程協同最佳化來達到對應的效能和功耗。」

BSC也說對他們而言至關重要的一點,是在整個鏈條上,瞭解如何把晶片做好——他們有來自整個歐洲的支持;甚至將問題擴展到培養歐洲的人才和該區域內的半導體生態系統。這麼看來,RISC-V及其生態發展的加速,還真是有全球半導體產業區域化和自主化的推力在的,絕對不只是中國。

至於生態下游,也就是大部分人所理解的基於RISC-V平台的應用開發生態,這已經是個老生常談的話題,其沉澱還是需要時間。所以從不同層面的生態角度:晶片設計上游的工具完備情況、圍繞晶片周邊的系統設計生態,以及下游的應用開發生態,都是某個指令集或微架構平台能否在對應領域獲得市場的重要組成。

包括ChatGPT在內的很多人說,某指令整合功的原因在於其處理器成本低、效率高、效能強。這些自然都是處理器獲得市場成功的外在表現。但這些本質上都離不開生態的發展。

 

 

通用運算晶片的發展有個良性循環三角:有用戶會選擇購買某種處理器,資金便開始進入到該處理器周邊的生態,這些資金會讓產品在技術方面做得更好;在產品得到提升以後,又會有更多的客戶選擇購買,並吸引下一輪資金…如此循環。

而生態、成本、效能/效率也是個循環:晶片出貨起量產生成本效益,晶片賺錢才能促成了技術的進步——即晶片效率越好,效率越好則能促進整個生態的發展,生態發展越是促成晶片出貨起量…如此循環。

生態、效能/效率、成本達成了相互促進的關係。如果走不進這樣的良性循環,則很難把遊戲真正玩起來。x86和Arm相繼在高效能領域站穩腳跟,都是因為進入了這樣的良性循環。

另一方面,ChatGPT回答中提到的compatibility、support本質上都是在說生態,而效能和生態也是相輔相成。至於成本問題,體現在資料中心的總擁有成本(TCO)上,包含晶片與設備投入,對企業本身業務賺錢的直接影響,還有系統基礎設施建設與維護、系統易用性、應用開發、場地租用、電費等能源開銷等等的成本。在良性循環三角內,生態做得好,成本自然在降低。

現階段探討RISC-V的效能與效率,相較於Arm、x86的實際情況可能還為時過早,畢竟生態建設進度還早。業界普遍認為,RISC-V若要進駐高效能市場,仍有比較長的路要走。像SiPearl CEO Philippe Notton就認為RISC-V至少現在都不是HPC的可選項。

但本文列舉的這些關鍵事件和既有產品,無論其中有多少變數(如Intel Pathfinder項目停止對於RISC-V生態而言的確很可惜)、企業是否誠實反映了產品實際情況(如P670的效能是否的確比肩Cortex-A78),都能表現RISC-V的生態建設之神速,的確是x86、Arm在生態建設初期難以比擬。而且底者認為,已有Arm珠玉在前,RISC-V自然就有機會。

RISC-V的一大優勢為靈活性

說到效能和效率,從Ventana對Veyron VT1的宣傳來看,每核心效能據說可比擬Arm Neoverse V系列——也就是Neoverse中更高效能定位的系列——亞馬遜(Amazon) Graviton 3和Nvidia Grace分別基於Neoverse V1和V2。

 

 

Ventana在宣傳中提到,CPU可選配最高128個核心,功耗<300W。如果宣傳資料屬實,則其效能水準可以比肩AMD Genoa。SemiAnalysis在最近的評論文章說,就算依照宣傳資料打八折來計算,則其效能仍然超過了Intel Xeon Ice Lake和才剛剛見到影的Sapphaire Rapids。

據說Ventana接下來要推的VT2核心效率還能做到更高,尤其面積效益表現很出色——單位面積內的效能傳言很好,則成本方面的收益也就更高了。與此同時,現有方案中與VT1搭配的IO die,已經用BoW實現chip-to-chip互連,1Tbps雙向頻寬,PHY-to-PHY連接延遲<2ns,傳輸能好效率達成<0.5pj/bit。

這些宣傳資料是的確比也採用先進封裝的Intel、AMD伺服器處理器要好。關鍵在其封裝的觸點密度似乎還並不高,不知道是用了什麼奇巧,也不清楚這些資料是否有慣了點水。且當運算力要求再往上提的時候,考量資料中心的效能水準更在於整個系統,而不只是核心、晶片與封裝層級這麼簡單——這還是要考察生態能力。

Ventana還說自己在應用方面也準備充分,提前幾年就已經在用SiFive的開發板進行軟體發展了…拋開這些不談,Ventana的業務優勢核心可能並不在於效能和效率,或者預想中可能前期也好不到哪兒去的應用生態,而在於客製性、靈活性或個性化,這個靈活性不是簡單的自訂指令擴展、外接加速器之類的部分。

 

 

Ventana針對客戶主要提供的是chiplet,而且本身似乎是不提供IO die,IO die來自協力廠商或合作夥伴。這種不是出售整個晶片的方案,提供了大量可能性。例如光是IO die就可以採用現成方案,或者採用授權IP來自行開發。

下游客戶完全可以集中精力去開發專用的加速器chiplet——加速單元可以直接整合進IO die。這種方案非常適合系統級企業,諸如亞馬遜、阿里巴巴、騰訊、百度等,這些企業如今都傾向於自己研發晶片。對於實現符合自身業務的晶片設計而言,包括汽車在內有HPC需求的系統級企業不再需要在CPU方向上重複開發輪子,也對應地降低了很大一部分成本。

Ventana現階段主要是用Open Compute Project的ODSA BOW標準來封裝,與此同時也計畫在未來版本中實現對UCIe這個更具潛力標準的支援(據說今年下半年);chiplet/IO die現在都使用AMBA CHI協定,整體上還是體現出相對開放的靈活性。這是AMD、Intel這類現在的市場霸主所不具備的,不光是因為業務營運方式差異,像Intel現在的處理器架構暫時也不支援這種賣貨方式的實現。另外就是成本會低很多:尤其在晶片做出來以後,大量晶片部署到集群裡,後續成本是遞減的;這對系統級企業而言具備很大吸引力。

或許RISC-V所能達成的靈活性還不止於此,各層級的靈活性和客製性未來還有更大的潛力做挖掘。如Schirrmeister說,集群需要很多處理器互連,「你需要考慮核心的可擴展性,也就是核心與互連的協同優化。RISC-V在這一層級提供了自由度,可能會比一些現有標準做得更好。當然這需要去做很多工作,也絕對不簡單。」但這也讓RISC-V在這一層級的生態發展有了不同的可能性。

這種靈活性,和隨摩爾定律停滯、某些類別的資料中心晶片的客製化需求,x86和Arm現階段還很難達成。而且RISC-V的這種靈活性還提供了更高的經濟效益,針對應用和業務也有機會提供更高的效能。

像Ventana這樣做客製方案的例子,在RISC-V生態內未來可能也會更加多樣化;BSC與Intel的合作,之前也是著眼於把RISC-V核心做成chiplet。如此看來,chiplet、先進封裝技術和異質整合,本身就是推進RISC-V這類具備高客製化可能性的CPU指令集發展的先決條件。

同時,進入到專用運算的時代,CPU未來在HPC領域可能僅作為控制器、愈發被邊緣化,或者至少市場價值更多地被加速器拿走——很多研究機構未來幾年的預測都指出資料中心伺服器價值中,CPU的絕對主導地位會被加速器所逐漸取代。

那麼針對特定工作進行客製,RISC-V自然更能在效能和效率上打敗那些固定、通用的CPU架構,即便這個過程所需的時間大概會很久,尤其軟體和應用的移植工作不會很容易。

 

 

從產業支援的角度來說,由於電子產業發展的不確定性和產業鏈的區域化大趨勢,RISC-V在全球都得到了前所未見的支持力度。僅是HPC領域,RISC-V聯盟都有個專門的SIG-HPC (HPC特別興趣小組),也算是為RISC-V在HPC社區的發展做的努力之一。

雖然即便在進行RISC-V方向HPC研究的專家都說,RISC-V要應用於HPC這樣的方向還需要好些年。資料中心其他類別的情況可能會各有差別;但其實從前文羅列部分市場參與者在高效能方向的努力來看,RISC-V在該市場上有著巨大潛力:而且越看越有佔據天時地利人和全方位優勢的態勢——也不光是前面提到的大環境因素,還有RISC-V的兩名競爭對手現在甚至都還出現了後院失火的情況。

本文原刊登於EE Times China網站

 

 

 

 

活動簡介

人工智慧(AI)無所不在。這一波AI浪潮正重塑並徹底改變科技產業甚至整個世界的未來。如何有效利用AI協助設計與開發?如何透過AI從設計、製造到生產創造增強的體驗?如何以AI作為轉型與變革的力量?打造綠色永續未來?AI面對的風險和影響又是什麼?

AI⁺ 技術論壇聚焦人工智慧/機器學習(AI/ML)技術,涵蓋從雲端到邊緣、從硬體到軟體、從演算法到架構的AI/ML技術相關基礎設施之設計、應用與部署,協助您全面掌握AI最新技術趨勢與創新,接軌AI生態系佈局,讓機器學習更快速、更經濟、更聰明也更有效率。

贊助廠商

發表評論

訂閱EETT電子報