擠牙膏的藝術:蘋果M2

作者 : 黃燁鋒,EE Times China

雖說M2的200億電晶體數量比M1增加了25%,但實際上更多的電晶體應該都用來堆GPU核心、AI單元核心,以及更大的cache。從這個角度來看,M2其實沒有帶來多大的驚喜…

先前Nvidia在Computex主題演講中相對罕見地比較自家GeForce RTX 3080 Laptop和蘋果(Apple) M1 Max的GPU,結果如下圖:     Nvidia為什麼要進行比較,大概是因為去年蘋果發佈MacBook Pro 16"和M1 Max的時候,特別提到M1 Max的GPU性能堪比GeForce RTX 3080 Laptop,而且功耗還低很多。做了這麼多年GPU的Nvidia聽到這種話,必然要反駁一番。 這組性能對比的專案包括了Photoshop、達芬奇、V-Ray等,從小字還是能看出對比偏向於GPU的通用運算加速、一些AI任務負載,其中還包括了CUDA模式下的V-Ray GPU基準測試。這其實是在欺負蘋果GPU生態貧瘠,以及嘲笑其硬體堆料那麼多,到頭來連Nvidia的甜品卡3060都比不上,談什麼「堪比3080」… 這個例子充分說明,晶片性能、能效之類的比較,想比甚麼,誰完勝誰真的不一定。或許很多讀者會覺得Nvidia是特意挑了一些蘋果不擅長的項目來比,但實際上蘋果在自家晶片的性能宣傳上比這還要過分。這次WWDC主題演講上,M2晶片的資料比較也大致如此。本文談談這顆萬眾矚目的蘋果M2晶片,又一次「雲」解析。   M2升級幅度不大   先來看看M2的一些基本參數:     蘋果照例在M2這顆晶片上沒有提供更具體的資料,比如說處理器頻率、核心代號是什麼。大方向上,晶片層面相比上一代M1的主要提升包括:CPU性能提升18%,GPU性能提升35%,AI單元(Neural Engine)運算力提升40% (15.8TOPS),記憶體頻寬提升50% (100GB/s),記憶體容量最高提升50% (24GB),新增ProRes編解碼加速引擎。看起來都還不錯。 CPU和GPU更新應該仍然是大眾最關心的。CPU部分,蘋果硬體技術資深副總裁Johny Srouji在發佈會上說:「性能核心(大核心)更快,採用更大的cache;而能效核心(小核心)則在性能方面有了大幅提升。」從這句話是有理由推斷,M1→M2的CPU部分提升,非常類似A14→A15 (iPhone 12→iPhone 13),而且A15也是基於台積電N5P製程,M2延續A15的部分設計比較合理。 M1本質上就屬於擴大了規模的A14,包括兩者CPU大核心微架構都是Firestorm,小核心都是Icestorm,只不過核心頻率、Cache大小、核心數、TDP等具體規模存在差異。再基於蘋果給出M2 CPU的cache大小,M2大概率就是A15的規模擴大版。 因為如果蘋果真為M2換個全新架構,那麼基於Arm陣營指令集已經更新至Armv9,蘋果應該在近代CPU上儘快遷移到Armv9;但蘋果本次發佈會完全沒有提到這件事,也說明M2的CPU還在用舊架構。     因此合理猜測M2的CPU大核心為Avalanche,小核心為Blizzard。A15晶片的一大特點就是CPU性能提升幅度比較小,重在能耗比、效率的升級上:尤其體現在Avalanche大核心各方面相比於A14的大核心都只是小改,提升主要體現在核心頻率和cache大小的變化;但Blizzard小核心變化相對較大,包括儲存子系統TLB,後端還新增了1個額外的ALU整數單元。 這相當符合前述Srouji在發佈會上對於M2大小核心變化的評價。蘋果的資料是,M2相比M1,CPU性能提升18%。這裡18%的性能提升是說多核心性能,但蘋果沒有說對比的究竟是什麼(官網註解中只說基於某些「產業標準benchmark」)。另一個重要指標依舊被忽略:單核心性能(或IPC提升)。目前蘋果CPU的單執行緒性能已經落後於Intel;蘋果的單執行緒性能成長至少需要看A16晶片的改進。 而這18%的CPU多核心性能提升,其中有一大部分應該是Blizzard小核心微架構改進帶來的。到更系統的真實負載測試裡,M2相比M1的CPU性能提升幅度應該不會很大;略有擠牙膏的嫌疑。不過能效方面的提升依然相當不錯,這是蘋果的傳統強項——N5P製程在此應助力不少。  
  GPU部分,蘋果的資料是M2比M1性能提升35%,對比專案依舊不明。35%的提升幅度看起來還不錯,但須知M2的GPU相比M1多加了2個核心(核心數提升25%),而且共用L2 cache也加大了(雖然不知道加大了多少)。所以M2 GPU的峰值性能也需要更高的功耗(看圖大約為15W)。而同功耗下,M2 GPU依然有25%的性能優勢。提高核心數的操作,也和A14→A15如出一轍。與此同時M2一樣有精簡版:閹割了2個GPU核心(8核心版),作為MacBook更低配置出售。如此一來,精簡版M2的GPU性能相較於M1的提升應該會極其有限(<10%)。 另外值得一提的是記憶體控制器支援到LPDDR5,達成記憶體頻寬100GB/s——比M1提升了50%。100GB/s在低功耗行動平台與競爭對手相比,仍然是個鶴立雞群的值,頻寬高出數倍;不過自從看過M1 Max的400GB/s以後,大家好像已經沒有那麼震驚了。這種大頻寬,加上蘋果的統一記憶體架構,對GPU而言會很有價值。 M2晶片其他部分比較值得一提的是蘋果的傳統技能,媒體引擎的進一步加強——這顯然是為多媒體創作者準備,尤其為宣傳中領先競爭對手「x倍」的資料提供了理論支撐。這兩年PC處理器製造商似乎都在媒體引擎方面內卷。從大方向來看,這屬於添加專門的處理單元,來大幅提升某一類工作效率的方案。     M2除了支援8K H.264和HEVC格式的視訊解碼之外,還有專用的ProRes視訊轉碼器;系統層面ProRes格式轉碼的速度有3倍提升。這對視訊工作者還是相當有價值,也是蘋果很清楚自家筆電究竟賣給誰的證明——死死把握住自己的多媒體創作、剪片子使用者市場。這次的媒體引擎更新似乎是向M1 Pro/Max看齊的節奏。 其他方面的配置更新還包括AI單元、新的ISP、新的Secure Enclave等。值得一提的是,M2在I/O方面依然比較孱弱,和M1一樣還是只支持外接1個最高6K解析度60Hz顯示器;USB-C口也並非高規格的Thunderbolt 4。這就相當的不高級,或許蘋果也是希望更Pro需求的用戶還是考慮14/16吋Macbook Pro產品為宜。 總結M2的主要改進:GPU增加核心,CPU提升能效,記憶體升級到LPDDR5,媒體引擎加強——剪片更快。雖說M2 的200億電晶體數量比M1增加了25%,但實際上更多的電晶體應該都用來堆GPU核心、AI單元核心,以及更大的cache了。從這個角度來看,M2其實沒有帶來多大的驚喜。 借此也不難發現,即便是蘋果這種設計能力很強的企業,也很難在不堆砌硬體資源的情況下,獲得多大程度的性能提升。比如單執行緒性能,歷史上不同市場參與者對核心微架構的一眾華而不實的取巧手段皆已發揮完畢,蘋果也跳不出這個框架。不過有一說一,A15本身已經夠優秀,M2雖然沒能帶來M1問世時的那種驚喜,但在能效方面也依然出類拔萃。 M2的那些誇張對比資料 晶片層面,蘋果宣稱比「最新的10核心PC筆電晶片,M2的CPU在同功耗下能夠提供將近2倍的性能(1.9倍)。而且要達到這顆PC晶片的峰值性能,M2僅需其1/4的功耗。」從蘋果提供ppt的小字來看,這裡的10核心PC筆電晶片是指Intel Core i7-1255U (TDP 15W, PL2 55W)。 其實在性能方面,和Intel第12代Core的U系列比較不大合理,今年的CoreU系列低壓處理器普遍配了2大核心(P-core)+8小核心(E-core),這樣所謂的「10核心處理器」顯然和Intel鎖定筆電更主流的6大核心+8小核心配置不同。     另外蘋果宣稱,還比較「最新的12核心PC筆電晶片——這顆晶片需要多很多的功耗才能提供性能上的增加」(如上圖),「M2提供這顆晶片將近90%的峰值性能(87%),與此同時功耗僅為其1/4」。這裡的「12核心PC筆電晶片」說的是Core i7-1260P。但實際上,i7-1260P並非第12代Core P系列中性能最強的處理器,P系列中頂配的Core i7-1280P還多了2個大核心,在絕對性能上應該會顯著優於M2 CPU。 所以CPU的性能對比物件選得並不算可靠,而且也不知道究竟比了什麼。基於蘋果宣稱M2 CPU性能大約相當於Core i7-1260P (MSI Prestige 14 Evo)的87%,有興趣的讀者可以去查Cinebench R23/Geekbench 5之類的線上跑分成績,推算M2 CPU和Core i7-1280P的性能差距有多少(不過不同OEM對P系列處理器的功耗設定差異甚大,很難做比較)。 都是低壓處理器,M2的CPU實則很難在性能方面與第12代Core一較高下,但必須讚賞其功耗表現一如既往的低——能效相較第12代Core也就好了幾個量級。尤其更低性能區間的功耗表現很出色,與台積電的製程關係也很大。不過請注意做高性能也沒那麼簡單,尤其在蘋果這種超寬微架構的前提下,隨便提個頻都沒有那麼容易。     GPU與競品的比較,蘋果宣稱M2 GPU比Core i7-1225U核顯,同功耗下性能領先2.3倍。實際對比物件也就是Intel的Xe核顯,規格為96EU (執行單元)。但實際上x86陣營,目前最強的核顯是AMD Ryzen 6000行動系列的RDNA 2;而Xe舊架構,Intel已經用了2~3年,預計今年年底的第13代Core才會有大改。 從蘋果提供的這張圖縱座標尺規來看,M2 GPU的峰值性能大約相當於96EU Xe核顯的2倍不到(可能在1.8倍左右);則有理由推測,M2 GPU的性能應該不及AMD行動平台的RDNA 2核顯——雖然感覺AMD因為缺貨,Ryzen 6000行動處理器還是沒能大規模鋪貨。 當然,在此蘋果的優勢還是在能效上。只不過以蘋果GPU的生態,衝著蘋果GPU去買MacBook Air顯然是毫無必要。更何況大部分用戶選購MacBook Air,還是會選擇M2精簡版——也就是少了2個GPU核心的版本,核顯性能其實就更不值得炫耀了。 15倍速度領先和GPU生態建構 再從系統層面——筆電整體的角度來看看蘋果另外提供的一些數字,以及蘋果在這次發佈會上表現出的建構GPU生態的努力。蘋果官網宣傳頁,針對MacBook Air筆電整體的性能宣傳數字包括(1)比M1版MacBook Air,速度提升1.4倍,(2)比更早的Intel版MacBook Air,速度提升15倍。     「15倍」實在是令人震驚啊,當代筆電比前兩年的筆電性能提升15倍...摩爾聽了都甘拜下風。蘋果在系統層面的對比專案還是非常的「我行我素」,一方面,蘋果比較的Intel處理器是第8代Core,這都5年前的處理器了;另一方面,15倍比較的是用Final Cut Pro 10.6.2來執行一個4K ProRes 422視訊檔工程,然後比比兩者的執行時間。 M2的媒體引擎特別增加了專用的ProRes硬體加速轉碼器,而2017年的第8代Core顯然還沒有這樣的配備,所以有15倍的速度優勢。這才叫用自己的優勢,去比人家沒有的啊......不過實際上蘋果官網的比較項目裡,15倍還不是最誇張的。 有一個比較項目是用Final Cut Pro轉碼一個55秒長的4K ProRes RAW格式視訊,轉為ProRes 422格式。M2的轉碼速度比M1領先3倍,比第8代Core領先了24倍!蘋果沒有用24倍來做宣傳,還真是可惜了。其餘比較專案包括Photoshop應用濾鏡和函數、Premiere Pro的4K H.264媒體檔處理、Lightroom拼接圖片等。 只能說蘋果對比的幾乎都是自己的優勢,但從另一個角度也說明蘋果對自己的目標使用者群體非常瞭解:畢竟很大一部分Mac使用者的確會用設備來進行多媒體剪輯、創作等工作;這些資料在此也就有了實際價值。 不過在蘋果公開的測試項目中,也發現了遊戲性能對比《博多之門3》高畫質下,M2比M1有1.3倍的性能優勢,這說明蘋果仍然有建構遊戲生態的渴望。 GPU生態(或者macOS生態)始終是蘋果的一大弱勢,所以才能看到Nvidia用一張PPT完勝M1 Max,蘋果就是吃了生態的虧。有關蘋果GPU生態,能聊的東西很多,如蘋果GPU沿襲了Imagination PowerVR GPU,整體是一種TBDR基於tile的延後渲染架構;圖形渲染流水線和傳統的桌上型電腦GPU有著較大差異。前不久,紐西蘭的一名資料科學家就特別撰文談到了其中影響。他認為大量從未針對TBDR儲存系統最佳化過的app,在M1 Ultra配備的32MB TLB面前會出現嚴重的效率問題。 其實蘋果GPU堆了那麼多的電晶體,真正可參與實際工作的卻少得可憐。即便是號稱已經適配了蘋果晶片的Blender 3.1,用M1 Pro來渲染其中基準測試的BMW項目,其GPU功耗就只用到8~9W,離滿載還差得遠,就知其生態與Nvidia的巨大差距。 不過在WWDC主題演講上,還是看到了蘋果在生態方面的努力。在macOS系統更新中,蘋果特別提到了對於Metal API的更新,例如Metal 3導入了稱為MetalFX Upscaling的特性。蘋果在發佈會上說,「渲染更小、更少的運算密集影格,並應用高品質的空間升格(spatial upscaling)和時域抗鋸齒(temporal anti-aliasing),就能以更快的速度渲染複雜的場景。」 這應該是一種很類似Nvidia DLSS超分技術的方案,也是現在繪圖運算的主流方向。另外蘋果還提到對於更複雜、豐富的文理貼圖等素材,增加快速資源載入API,能夠最小化等待時間——具體是從SSD到統一記憶體系統的直接路徑,GPU能夠快速訪問高品質的貼圖和buffer,不需要等待。 發佈會上,蘋果還很罕見地邀請到了Capcom月台。Capcom作為主流遊戲公司,主要談到利用Metal 3的這些新特性,使《惡靈古堡:村莊》這個遊戲也能流暢地以1,080p解析度跑在M2版MacBook Air上,雖然不知道是何等畫質。筆者認為,這還是值得期待的,雖然針對GPU繪圖運算月台的,似乎也就只有卡普空一家。以蘋果在晶片設計能效上的優勢,做大生態才有機會真的「媲美」GeForce GPU,雖然這需要很長時間。 M2仍然是低功耗輕薄筆電市場上最優秀的處理器,雖然筆者認為它比M1擠了牙膏,而且在絕對性能方面也算不上多先進,但能效、效率仍是其巨大優勢項。不過比較奇怪的是,M2 CPU在加大cache資源,改用N5P製程的情況下,其日常工作功耗應該會更低才對;加上新版MacBook Air的電池容量還加大了,其續航表現應該會更好。但蘋果官網提供MacBook Air的續航仍然和上代一樣,不知是否是螢幕等其他元件的關係。 另外,蘋果晶片設計慣常的超寬微架構,不大在乎die size的風格,也讓M2版MacBook Air的價格直接達到了人民幣萬元水準,還得選配16GB RAM和512GB SSD。當然從整機角度來看,MacBook Air的吸引力其實並不單在M2晶片上,這就是另外的話題了。 本文原刊登於EE Times China網站        

發表評論