蘋果發佈會上沒說的那些事

作者 : 黃燁鋒,EE Times China

最新發佈的M1 Ultra晶片用拼接的方式,把電晶體數位推升到了1,140億個,這顆晶片真的有蘋果所言那麼神乎其神嗎?

當年iPhone 6發佈會,蘋果(Apple)說A8晶片上有20億個電晶體;轉眼iPhone 13的A15晶片就已經把數字推進到150億。好像這些數字在真正的「大晶片」面前還是不夠看。例如PC設備上的知名大晶片,有283億個電晶體的Nvidia GeForce RTX 3090,發燒友們夢寐以求能玩8K遊戲的大晶片。

但或許單個民用晶片的電晶體數量級還是不夠大:上周Graphcore發佈用於大規模人工智慧(AI)訓練和推理的Bow IPU晶片則有600億個電晶體…是不是也還好?去年英特爾(Intel)發佈應用於資料中心、尺寸看起來超級巨大的GPU Ponte Vecchio在宣傳中說電晶體數量「超過1,000億個」……。

然而,前幾天蘋果春季發佈會上,最新發佈的M1 Ultra晶片在民用領域就把這個數字推升到了1,140億個。要知道M1 Ultra只是一顆應用於PC的晶片。有沒有感覺到蘋果在堆料上的壓迫感?這大概跟其他晶片公司都不處在同一競爭量級吧?

事實上,蘋果對晶片設計的態度,與大部分晶片公司需要仔細權衡PPA(性能、功耗、面積/成本)略有不同;蘋果真的是可以在某種程度上無視其中的「A」。不過M1 Ultra真的有蘋果所言那麼神乎其神嗎?本文就來談談這顆最新發佈的蘋果M1 Ultra,尤其是蘋果在發佈會上沒告訴你的那些事。

 

 

M1 Ultra的核心已用了2年

照例羅列M1 Ultra的基本配置,雖然蘋果在公開處理器資料和技術細節上一向都十分吝嗇:

  • CPU:16個Firestorm大核心(192KB I-cache,128KB D-cache,48MB L2 cache),4個Icestorm小核心(128KB I-cache,64KB D-cache,8MB L2 cache);
  • GPU:64核心(8,192個執行單元,最多196,608個平行線程);
  • Neural Engine (AI單元):32核心,22TOPS;
  • 媒體引擎:硬體加速H.264, HEVC、ProRes、ProRes RAW;2個視訊解碼引擎;4個視訊編碼引擎;4個ProRes編解碼引擎;
  • 記憶體:統一記憶體存取架構(UMA),800GB/s頻寬,最大容量128GB。

這顆晶片之所以稱為M1 Ultra,而不是叫M2 Big,是因為其CPU、GPU、NE單元的架構是不變的,M1、M1 Pro、M1 Max和M1 Ultra可認為是規模化擴展的關係。已經看過M1 Ultra前期報導的各位應該很清楚,兩個M1 Max相加就得到了一枚M1 Ultra,感覺M1已經成為1個性能單位,隨後逐層疊加堆料。

 

 

它們之間不存在演進關係,尤其表現在M1 Ultra仍在用Firestorm/Icestorm處理器核心。核心層面,M1 Ultra與M1沒什麼區別(而且大概率他們的頻率也不會有多大差別)。這可是2020年的核心了,蘋果一用就是兩年。

CPU核心用2年帶來的一個後果就是單核心性能變得落後。M1 Ultra即便規模很大,單核心性能卻也就是M1相當的水準。或許2年前Firestorm大核心在性能方面還堪稱驚豔,但這兩年Intel核心改進動作頻繁,每年IPC都提高10~20%。

蘋果在發佈會上對單核心/單執行緒性能隻字未提,展示的數位全都是多核心性能——這或許和Mac適配的使用者人群也有關。不過類似Photoshop這樣的應用,對單核心性能仍然更加敏感。前不久針對第12代Core的測試發現,其大核心的單核心性能,比M1家族大核心領先大約23%。

雖然蘋果在發佈會上並沒有提M1 Ultra的CPU頻率,不過以蘋果的CPU核心超寬架構來看,他們的CPU更難以提升頻率,以及在頻率提升後功耗更容易崩塌。所以即便有提升,幅度也不會多大;則其單核心性能基本就是原地踏步。

規模化擴展帶來的巨大性能收益

複製M1 Max得到一顆M1 Ultra,在PC CPU處理器及大型SoC晶片上似乎還沒見過這麼粗暴的方案(雖然規模化擴展對於GPU之類的處理器而言就很常見)。蘋果在發佈會上提到M1 Max有個秘密一直沒公開,就是die-to-die interconnect技術,得以實現M1 Max兩片 die相加變身M1 Ultra。

這種方案雖然粗暴但很有效。而在「粗暴」之外,其實能看到蘋果在M1晶片規劃之初的長遠設定,因為這種「粗暴」並不是真正的粗暴。這種規模化擴展並不是任何晶片都可以做的,儲存一致性、資料同步之類的實際問題就一大堆。

必須肯定蘋果M1 Ultra在PC領域的CPU多核心性能/效率、GPU性能/效率(尤其是效率上)出類拔萃的能力,畢竟堆了那麼多的料。但蘋果在發佈會上呈現動不動幾倍的數字,實在是半導體產業難以承受之重…

以下就來看看性能與功耗,以及蘋果在其中隱藏的一些貓膩:

 

 

上圖比較蘋果M1 Ultra和Intel Corei9-12900K。蘋果表示,兩者相比,前者在相同功耗下能夠達成最多90%的性能領先。圖中可見,應該是60W這個功耗段(只不過蘋果在註腳裡也完全沒有提到,對比的是什麼項目,而只是說「Performance measured using select industry-standard benchmarks」)。

 

 

與此同時,蘋果表示,M1 Ultra在達到Core i9-12900K相同的峰值性能時,功耗低了100W。從上圖來看,是i9-12900K在160W功耗下的性能,與M1 Ultra在40W功耗下的性能相等(這不是超過了100W?)…

第12代Core桌上型電腦版發佈的時候,筆者當時沒有仔細去測i9-12900K。而針對筆記型電腦的i9-12900H幾個功耗段下的性能表現,至少在35W~130W功耗段的性能表現,和蘋果呈現的這根曲線不大相符。

另外,i9-12900K的峰值性能應該在最大睿頻功耗的241W,而不是圖中標的180W。即便依照蘋果畫的這條性能/功耗曲線延伸,Core i9-12900K最終達到241W時的峰值性能可能也高於M1 Ultra。

不過有一點可以確認,就是M1 Ultra的能耗/效率表現非常出色,可能相較i9-12900K遙遙領先。畢竟Firestorm是架構超寬的核心、頻率又低很多。另外,台積電(TSMC)在製程上目前相比Intel也有比較大的優勢。

 

 

感覺比較有趣的是,桌上型PC對於功耗其實是不敏感的,這和筆記型電腦、行動平台很不一樣。CPU功耗飆到200W+,GPU功耗飆到300W+,問題都不大,反正也是牆插供電;耗電也比不上電暖氣、電磁爐吧。

對桌上型PC平台來說,功耗低帶來的直觀體驗提升也很小,因為這種平台天然的更少受制於噪音、發熱(因為使用者通常離主機會比較遠,大體積也抑制了風扇噪音的傳播),而且也沒有續航問題。不過蘋果在發佈會上仍一再強調M1 Ultra效率很高,還特別提到搭載M1 Ultra的Mac Studio主機相較高階桌上型PC,每年能減少1,000kWh的能耗。

這才是向綠色生活看齊,並符合時代碳達峰、碳中和的主旋律。從蘋果在M1 Ultra之上強調效率與能耗,也更能看出蘋果造晶片的基因的的確確是從行動/低功耗,向桌上型/高性能轉變;Intel、AMD的發展歷史則決定了,他們的發展方向和起源有著很大的不同。

GPU性能據說比3090還厲害?

GPU方面,蘋果選擇的對比對象主要是Nvidia GeForce RTX 3090——個人用戶GPU市場目前能買到最高階的顯卡。蘋果表示M1 Ultra的GPU性能不僅比3090還強,而且功耗還低200W。

 

 

筆者認為在蘋果發揮出最大生態能力時,這個數字可能是合理的。一方面在於GeForce RTX 3090用的是比較陳舊的三星8nm製程(相當於10nm製程的小改款);M1 Ultra已經在用台積電5nm製程。另一方面,M1 Ultra給GPU的堆料相當充足,蘋果提供的示意圖如下:

 

 

看看這個die面積,雖然不清楚1,140億個電晶體有多少分給了GPU;但GeForce RTX 3090的運算die也不過283億個電晶體;要說規模蘋果也從來沒怕過誰。另外,M1 Ultra的統一記憶體架構UMA實現了800GB/s的儲存頻寬吞吐,雖說這個數字還是比不上RTX 3090顯卡搭配GDDR6X顯存的936GB/s,但後者是單純的顯存頻寬。而且對於GPU而言,M1 Ultra還有128GB的容量優勢。

但請注意,這是最理想的情況。M1 Ultra的GPU存在兩個比較大的問題:第一,M1 Ultra是由兩片die組成,GPU位於兩片die之上,也就是說M1 Ultra的GPU分成了兩半。這稱MCM GPU (Multi-chip module,或者叫chiplet-based GPU)。

這種GPU在民用市場上還從未出現過,資料中心唯一用了這類方案的Intel Ponte Vecchio也才剛剛開始啟用。像這種需要die間通訊,還得解決資料一致性問題,實現不同die運算單元充分利用,並且對開發者保持友好的設計,這時候大概也就蘋果hold得住。

MCM GPU本身幾乎無法實現堆料加倍,性能就加倍的目標。相信蘋果宣傳中提到的2.5TB/s的die間通訊頻寬、800GB/s的記憶體頻寬都是為此準備;最終要看蘋果的設計能否承載雙die GPU可實現的極限性能擴展需求。所以是否如蘋果所言,達到3090的性能水準,在這一點上還相當值得觀察。

第二,蘋果GPU的生態和Nvidia有著雲泥之別。或許攝影師、設計師們在某些特定軟體上編輯視訊、3D設計,M1家族晶片的速度和性能都堪稱一絕。但如果是做別的呢?且不說遊戲這種蘋果生態荒地:蘋果在發佈M1 Max的時候就說其GPU媲美行動版GeForce RTX 3080。

 

 

從實際測試來看,在Geekbench 5 GPU通用加速測試、Blender渲染測試這種用GPU去做加速的工作裡,不要說3080,M1 Max GPU的實際表現可能連行動版3060都比不上。這是生態缺失造成的「空有一身肌肉卻無處發揮」的尷尬。

另可做個極端對比:RTX 3090 GPU晶片內有專門的光線追蹤硬體單元(RT core)。如果M1 Ultra的GPU真的有3090這樣的硬體運算力與生態支援,那麼在跑那些光追應用時,它又將置身何地?說到底,雙方的對比仍然不在一個水平線上。

「幾倍」性能提升?

相較於單純的晶片性能比較,蘋果還提出了不少Mac Studio的系統性能對比。這些數字看起來就比上面的驚悚多了。比如蘋果說Mac Studio (M1 Ultra) CPU性能,是27吋iMac (10核心Core i9)的3.8倍,比Mac Pro (16核心Xeon處理器)領先90%,比Mac Pro (28核心Xeon處理器)領先60%。

 

 

這兩年蘋果一開發佈會,Intel向來被批評的最嚴重,不過這系列的對比有幾處「問題」應是很多人不瞭解的。第一是對比的對象,上一代27吋iMac (2020),所用的「10核心Core i9」,具體乃是第10代Core (而且是更老的Comet Lake架構-同屬Skylake家族),距今有2年差距。這2年對Core處理器意味著什麼,應當是關注產業的很多讀者都十分清楚的,而上一代Mac Pro (2029)所用的Xeon處理器具體為Cascade Lake,核心本質上也屬於著名老架構Skylake。

這就讓這些對比數字非常「有趣」:用蘋果最新的晶片,去比Intel Skylake,真的好嗎?或許這些對比對Mac老用戶而言有價值,畢竟他們面臨裝置更新的問題;但對更廣闊的PC市場而言,這些數字又非常容易造成誤導——總讓人覺得蘋果晶片早就開始用超前瞻的科技了。

第二是比較的專案,蘋果官網的註腳小字部分有說明所謂的x.x倍提升具體比的是什麼。蘋果官網提供的綜合數字是,CPU性能3.8倍的提升。對比專案乃是Houdini FX 19.0.524軟體中窄頻FLIP類比場景。Houdini是個3D動畫軟體工具,用其中的FLIP求解器性能表現,來代表CPU的性能提升。這麼「精準」的比較,真的說得過去嗎?

當初M1發佈的時候,蘋果說CPU性能提升3.5倍,選的比較項目包括Final Cut Pro中的ProRes 4K視訊轉碼;蘋果說GPU性能提升5倍,所謂的5倍,其實是Final Cut Pro裡某個3D字幕功能渲染速度。

 

 

系統性能GPU對比部分,這次受傷的輪到AMD了。筆者認為,晶片層面的性能對比,尤其GPU部分以AMD做比較對象,其實是個更明智的選擇。Mac的GPU性能提升本質上更是其macOS、metal API等生態內部的問題。

比較對象、對比專案的不夠可靠,造就了數字上非常有效的市場宣傳效果:幾倍提升讓摩爾定律都甘拜下風。不過,蘋果晶片本身在性能上是足夠彪悍的,稍作誇大也沒什麼大不了。況且這本身就是賈伯斯留下的傳統(當年賈伯斯說PowerPC G3比Pentium 2要快2倍…)。

另一方面,Mac及蘋果晶片在鎖定使用者時,具備了更高的針對性。如蘋果很喜歡選Final Cut Pro、Lightroom、Cinema 4D這類軟體來作為其性能更好的依據,還是存在一定合理性。因為其目標使用者群很大一部分就在內容創作者和設計師群體,蘋果總不可能自己去和Intel、Nvidia比遊戲吧?

 

 

在談M1 Ultra配置時,蘋果特地把媒體引擎拿出來說了一番——ProRes成為蘋果反覆提及的重點,且其佔die面積也同樣十分可觀。這說明蘋果太清楚Mac要賣給誰,M1 Ultra要為誰服務了,這對鎖定大眾的CPU、GPU晶片廠商而言是不可想像的。

做更寬的架構、無視面積,以及加入更多專用硬體單元適配目標使用者群體,這兩點本質上就是蘋果晶片得以鏖戰PC市場的根本。這是其封閉生態特性決定的獨有優勢。

「膠水」黏起來的M1 Max

「膠水」一詞作為對處理器的戲謔,最早似乎源於2005年Intel Pentium D處理器的「膠水雙核心」。當年Intel為了應對AMD的Athlon64 x2雙核心處理器,很倉促地推出了Pentium D——尤其2006年代號為Presler的Pentium D,是真正的MCM:同一個基板封裝上有2個die,一個die、一個核心。是不是令人感覺格外新潮?

 

當年的Pentium D「膠水雙核心」。

 

Pentium D雙核之間的通訊需要依靠FSB前端匯流排和主機板上的北橋,也就是到晶片外繞了一大圈,通訊效率格外低下。感覺就像是把兩顆Pentium 4用膠水黏在一起,所以被人戲稱為膠水雙核心。

時代在變,從「複製黏貼」這種方式來看,是否感覺蘋果M1 Ultra還蠻類似當年膠水雙核心的設計?只不過這次複製黏貼的是一整個SoC…當然如前所述,稱其為膠水只是玩笑,蘋果在設計M1 Max之初就留了一手,即die-to-die interconnect。按照蘋果標稱的雙倍性能提升,必然是要在兩顆die協作方面做很多工作;筆者認為蘋果對M1的早期定義和規劃應該就已做得比較出色。

蘋果說將兩顆die連起來,用的是「創新的、客製打造的封裝架構」,並且將這種多die架構稱作UltraFusion。蘋果在發佈會上明確提到了UltraFusion是用Silicon Interposer互連,也許是台積電的CoWoS技術。

 

 

如上圖中間的這個方案,是將不同的die放在矽仲介上,這個矽仲介內部可實現die之間的互連(redistribution layers,RDL)。但從蘋果的互連示意圖來看,反倒更像是矽橋(Silicon Bridge)方案(下圖),也就是上圖中的第3個。Intel EMIB是Silicon Bridge技術中的代表。當然,或許蘋果也只是做個易於理解的表達罷了:

 

基於chiplet——也就是這種多die「拼」在一起的方案,在半導體產業並不罕見。尤其這麼大的晶片,要是做成整片monolithic,良率會讓業者們都吃不消。所以把大die切成小die,再封裝才是產業趨勢。

AMD的CPU處理器這兩年也普遍基於chiplet來堆核心——但AMD民用處理器的多die互連封裝比較低階;而且AMD也不是像蘋果直接做SoC的複製黏貼。矽仲介、Silicon Bridge這類方案在大晶片上正在普及,但消費級處理器上還比較罕見,且Intel好像到現在都沒有做chiplet式Core處理器的打算。

蘋果在發佈會上還特別強調了UltraFusion相比於產業內任何其他同類方案都要領先,而且相比任何現有技術都有著2倍的互連密度:表現在連接超過10,000個訊號點,達成兩顆die之間2.5TB/s的低延遲、互連頻寬,而且功耗很低——「相比主流多chip互連技術提供超過4倍頻寬」。

透過這樣的複製黏貼,M1 Ultra達成比M1 Max各方面都高兩倍的目標。電晶體數量是2倍,AI運算力是2倍,同時支援的8K ProRes視訊流數量是2倍,價格是2倍(Mac Studio),支援的記憶體頻寬是2倍,CPU/GPU核心數量是2倍…等。

 

 

記憶體頻寬的800GB/s算一大亮點。第12代Core處理器L3 cache讀寫速度都還沒有這麼高(當然延遲應該不在一個量級);至於記憶體,Xeon平台把8通道的記憶體條全部插滿,也就200GB/s的頻寬;普通PC平台雙通道記憶體頻寬不到80GB/s。

其實M1 Max的400GB/s已經足夠讓人驚訝。對CPU來說,似乎已經消受不起這麼高的頻寬;800GB/s更像是為GPU準備,前面已提到800GB/s與頂配GPU顯存頻寬接近。前面GPU部分已提到M1 Ultra的MCM GPU方案在產業內是走在前列、十分大膽,但把GPU切開去用的效果,仍然要看實際表現;畢竟也不知道蘋果針對這部分具體是怎麼做的。

MCM GPU,乃至其他相同模組的簡單複製其實在性能上都很難做到1+1=2。而且蘋果還特別談到,M1 Ultra對開發者來說不需要改動程式碼,這對蘋果更是考驗。或許產業變革的開端也從這裡被打開,即便蘋果生態又有著巨大的特殊性。

 

 

蘋果在本次發佈會上提到了板級的雙晶片方案,就像上圖——透過主機板來互連通訊。蘋果吐槽這種方案增加延遲、頻寬受限,而且功耗很高,與此同時對開發者而言構成了更大的負擔,不知道這是不是在講伺服器平台。

蘋果早在1986年就想自己打造處理器並命名為Scorpius。這顆晶片在設計上就有可擴展的多晶片系統,包括互連通訊,在當時十分新潮,只不過蘋果當時沒有能力把這樣的晶片設計出來。隨著封裝製程的進步,先進封裝成為摩爾定律延續的重要組成部分,連silicon interposer本身都在不斷突破微影機台的reticle limit,2.5D/3D封裝還在進行著互連密度的競賽。既然電晶體層面的製程進步放緩,先進封裝成為晶片設計和製造的未來也成為趨勢。

現在的蘋果有能力在民用晶片市場率先走出這一步——走得比AMD明顯更大;與此同時還在AMD、Nvidia研究了那麼多年的MCM GPU議題上第一個做出邁進。雖然蘋果對M1 Ultra的市場宣傳實在浮誇,但這也不妨礙它為產業添了濃墨重彩的一筆。

本文原刊登於EE Times China網站

 

 

 

 

加入我們官方帳號LINE@,最新消息一手掌握!

發表評論