10核心GPU真的夠用嗎?
最近一波天璣9000和Snapdragon 8 Gen 1的搶跑成績,進一步驗證天璣9000明年定位旗艦的實力。這其中比較令人驚喜的,是天璣9000的遊戲表現……

聯發科(MTK)天璣9000晶片作為明年要大舉推向市場的旗艦SoC,有許多令人期待之處。最近一波天璣9000和Snapdragon 8 Gen 1的搶跑成績,也進一步驗證了天璣9000明年定位旗艦的實力——已公開的這波結果也是先前讓人沒想到的。
這其中比較令人驚喜的,是天璣9000的遊戲表現。極客灣最近發佈針對天璣9000工程機的測試表明,這顆晶片在《原神》這類高負載遊戲中的持續性能和能效相當亮眼,在某些維度能夠對隔壁競品造成相當的壓力。以天璣9000選配Arm Mali-G710 MC10規格,整體結果讓人十分意外。
雖說拋開晶片的面積效益不談,高通Adreno失去昔日優勢地位已成定局,但今年10核心Mali-G710能有如此優秀的表現,實在是讓人感歎技術競爭之無常。當然,遊戲作為抽象層級比較高的一類應用,性能、功耗、綜合體驗考驗的並不單是GPU,而是整個系統層面的能力,包括CPU、作業系統、驅動和各種中介軟體。本文我們單純從天璣9000晶片的角度,嘗試分析天璣9000晶片是如何達成旗艦級的遊戲體驗,這對我們理解當代行動平台的繪圖運算技術也有幫助。
總體看天璣9000
首先還是看看有關天璣9000晶片的主要配置:
- 製程:TSMC 4nm;
- CPU:1x Cortex-X2 3.05GHz + 3x Cortex-A710 2.85GHz + 4x Cortex-A510 1.8GHz;
- GPU:Mali-G710 MC10;
- APU:APU 590,4x 性能核+ 2x 通用核心;
- ISP:Imagiq 790,最高支援90億畫素/秒吞吐,3.2億畫素攝影鏡頭;3個18bit HDR Fusion ISP;更先進的AI video架構;
- 媒體與顯示:MiraVision 790,支援8K AV1視訊播放;顯示輸出支援最高WQHD+ @144Hz/FHD+ @180Hz;支援全球HDR新標準;
- Modem:M80,5G Rel.16;支持下行載波聚合3CC最高300MHz頻寬(3x 100MHz)、7Gbps速率;上行R16 UL增強;UltraSave 2.0節電特性支援;
- 其他連接:WiFi 6E (6GHz);藍牙5.3;完整的GNSS支持;
- 記憶體支援:LPDDR5x-7500Mbps;
CPU是首個Armv9指令集方案,1+3+4的三簇設運算是常規,頻率整體比隔壁競品高,實則能夠一定程度表現台積電N4製程相比三星4LPE/4LPP的高頻能力。比較值得一提,天璣9000 的一大亮點在於儲存子系統,CPU部分的L3 cache拉滿到了8MB——這也是Arm先前發佈Cortex-X2時推薦的L3 cache大小,以及System Level Cache增加至6MB。這兩個值對於儲存敏感型應用是很有價值的,比如說遊戲。聯發科在發佈會上提到這兩級cache的增大,能夠幫助減少25%的頻寬消耗。尤其對於行動GPU這類TBR基於tile延遲渲染的繪圖加速器而言,對性能、功耗都會有幫助。
天璣9000的10核心GPU夠嗎?
既然主要談遊戲性能,那麼GPU自然就非常重要了。天璣9000選配的是10核心Arm Mali-G710。從大方向來看,Mali-G710和G77、G78一樣,都屬於Valhall架構。Valhall架構的前兩代,G78相比G77的改進的確比較小。
不過G710在shader核心、紋理單元方面都有規模上的顯著擴大。比較大的變化在於每個shader核心的執行引擎(Execution Engine)數增至2個。而且執行引擎內部也有變化,在warp size和整體吞吐不變的情況下,處理單元分成了4組4-wide處理元素。如此一來,每核每週期FMA吞吐翻翻,而且能耗也有顯著下降。
配套TMU紋理單元在吞吐上也翻倍了,且面積效益(性能密度)有相當大的提升。當然並不能就此簡單地說,Mali-G710的一個shader核心就相當於G78的兩個shader核心;但規模擴大依然是顯著的。
另外G710把job manager換成了所謂的CSF (Command Stream Frontend),處理調度和draw call。這個模組中,尤其韌體層的導入能夠針對一些較複雜的繪圖負載,提供更具彈性的性能表現,減少驅動開銷、提升效率。另外還有指令類比等新特性。
Arm官方給出Mali-G710的shader核心數可選配範圍在7~16個,整體性能相較上代提升為20%。先前Mali-G78的滿配核心數是24個。其實從紙面上來看,天璣9000的Mali-G710 MC10,在核心規格上堆得還是頗為保守——當然此處並未加入shader核心頻率的考量。
但有一點請不要忘記,下圖總結了近兩年行動GPU性能的時候也發現,核心數有時候並不靠譜。比如說Google Tensor晶片,規格為20核心的Mali-G78,但其持續性能還不及只配了14個Mali-G78核心的三星Exynos 2100。
這是多方面原因造成的,包括製程、峰值功耗,還有OEM的系統設計與調度策略。Android平台的繪圖算力峰值性能價值其實並不是很大,且遊戲總是更追求持續性能,畢竟玩遊戲可不是每次都只玩1分鐘。這兩年Android陣營的旗艦晶片普遍陷入了峰值性能與持續性能嚴重不對等的怪圈,這種風氣相當不好。
筆者也拿到了天璣9000的GFXBench Aztec Ruins高畫質離屏渲染測試(Vulkan)與Manhattan 3.1離屏渲染測試的性能成績(持續性能暫缺),結果還是相當出乎意料。這顯示Mali-G710的核心與配套加料還蠻充分,或者說天璣9000 GPU的頻率可能會定得比較高。
當然,如前所述,這與CPU和整顆晶片的cache容量也有著莫大關聯。至少就峰值性能水準來看,還是相當有潛力的。這就讓人非常期待來年天璣9000手機的實際遊戲表現,畢竟持續性能考驗的還是OEM的系統設計能力。
不過筆者並沒有天璣9000在這兩項測試中的平均功耗成績。近兩年的手機旗艦SoC在進行這兩項GFXBench繪圖性能測試時,在某些點的暫態功耗都能拉到10W以上,首輪跑分平均功耗也有8~9W。這對手機而言是相當驚悚的功耗水準,也是不可持續的,希望天璣9000不要延續這樣的「傳統」。
聯發科針對天璣9000的GPU專案宣傳數字,提供的都是實際遊戲影格數。基於GFXBench測試成績,以上列出的大部分主流手機遊戲達成「滿影格」就在意料之中了。針對更多人關心的持續遊戲性能,聯發科先前也提出《原神》這個高負載遊戲的24分鐘影格率曲線。透過網路上目前可以看到的測試來看,天璣9000在功耗和發熱方面當有相當出色的表現。
另外,《原神》是個對CPU資源需求也比較大的遊戲。影響遊戲影格率的主要因素包括GPU性能、驅動程式效率、API效率、CPU性能、draw call、頻寬等。對於《原神》這種包含大量物件的遊戲來說,draw call數量龐大。draw call是指CPU調用API,指揮GPU去工作的過程,CPU的性能對《原神》這樣的遊戲而言也格外重要。天璣9000的Geekbench 5單核與多核性能成績似乎是秒殺Android陣營全場。
再花點筆墨聊聊 「動態光照」和「光線追蹤」。聯發科在發佈會上說:「天璣9000也支援最新的動態光照遊戲技術。隨著遊戲的運行,支援更多動態光源,讓光影更能真實表現,讓手機也能執行3A品質的手遊大作。」聯發科在前不久的媒體溝通會上提到過,開放世界遊戲的全域光照實現是頗具挑戰性,因為開放世界遊戲的遊戲場景動態變化頻繁,場景物件和畫面數都可能很多。
上圖中提到動態光照最佳化技術,實現頻寬降低,也是基於行動GPU的延遲渲染特點達成。主要是透過片內cache/buffer來減少資料搬運和光照運算。先前聯發科說這樣的最佳化能夠「支援10倍數量的動態光源交互,節省20%頻寬。」當然除了硬體微架構上的變動,也有電腦繪圖學方面的演進。這個例子應當算是比較典型的、行動平台節能提效方案,也是先前聯發科技術積累在天璣9000晶片上的一個重要體現。
此外,聯發科提到已經在和Arm就光線追蹤進行分階段合作,以前的晶片產品就已經在為光線追蹤做準備,包括「渲染指令運算、cache機制,現在是融入在了IP裡面」。
而且這次發佈會上,騰訊遊戲發言人也提到天璣系列5G晶片對於行動光線追蹤技術的佈局,與騰訊之間的合作。聯發科和騰訊共同開發的遊戲光線追蹤「雙引擎」(包括「光線追蹤引擎」和「降噪後處理引擎」)現在應該是能夠為開發者所用,這顯然也是將來光線追蹤遊戲佈局的重要組成部分。
備受關注的遊戲能效表現
如前所述,光有繪圖運算的峰值性能對日常遊戲體驗而言,是沒有參考意義的。此時天璣9000的功耗、發熱,應該是更多使用者關心的話題。有關功耗,雖然暫時沒有具體的數字,不過聯發科在發佈會上特別提到了「全域能效優化技術」。這個詞估計是整顆SoC晶片,各種節電設計方案的疊加,不僅限於某一個IP,包括GPU微架構上的不少節電方案(以及稍後將提到的部分方案)。
聯發科在天璣9000發佈會上提到,天璣9000在輕載應用上(比如朋友圈、淘寶購物、流覽新聞等)相比競品可省38%的功耗;中載的視訊錄影方面,節省功耗9~12%;重載的遊戲表現方面,「MOBA沙箱類遊戲下,連續玩10分鐘,可以比競品省25%的功耗。而且手機表面溫度更低,連續玩60分鐘,較競品在表面溫度上可以降低5~9℃。」
雖說手機表面溫度這種東西很大程度與OEM的系統設計相關,但能夠實現這一點,理論上應當是晶片層面微架構、製程升級共同達成。一方面說明Mali-G710升級比較靠譜,另一方面也說明聯發科在做PPA權衡時,選擇10個核心的配置(以及其他設計上的調整:比如說有可能聯發科選擇了GPU不同步時脈域的方案)、外加其他IP組成部分(包括CPU)都比較合理。
如果以上資料都可信,那麼對於遊戲綜合體驗,以及遊戲高負載續航而言,天璣9000顯然是個不錯的選擇。有關「全域能效優化技術」,聯發科說得還是比較抽象,未曾明言具體有哪些技術。猜想前面列舉的包括採用台積電N4、繪圖運算的動態光照、GPU微架構設計上的調整,乃至ISP、APU、modem (典型如UltraSave 2.0)等都涵蓋其中。
有關遊戲的節能,還能列舉的一個典型技術就是超分(Super Resolution/Super Sampling)。在普通用戶市場上,Nvidia DLSS開始宣傳超分技術,讓此類技術在遊戲用戶中家喻戶曉。所謂的超分,也就是將低解析度的畫面upscale為高解析度——如此一來,GPU只需更低的渲染開銷,就能獲得接近原生高解析度的畫質,達到提升遊戲影格率、同時降低功耗的作用。
聯發科的遊戲超分技術也是先前就開始佈局。具體方案是以GPU+APU來達成AI超分,技術思路和Nvidia、Intel應該比較類似。這項技術的達成,與天璣9000上的APU 590自然是分不開的,聯發科這次的APU在性能和能效方面,達成了對幾乎所有手機晶片的碾壓。這項技術如果能夠得到遊戲開發者的積極回應,並在未來普及,那麼以更省電的方式來遊戲,甚至對於光線追蹤的儘早普及,都將十分有意義。
低功耗是聯發科在近兩次發佈會上反覆提到的,強調低功耗是聯發科技術上的特色和優勢。「功耗」一詞在整場發佈會上被提到了大約25次,「在設計天璣9000初期,就考慮到功耗和發熱的問題。設計團隊開始的時候,堅持採用功耗表現最好的台積電最新4nm製程。天璣9000在晶片架構上做了全面的架構最佳化,不管CPU、GPU、APU、ISP、modem…等的IP模組上做了最好的能效曲線。」聯發科而且也特別強調了「打遊戲不發燙」。
實際上像M80 5G modem,採用聯發科的UltraSave 2.0省電技術,結合R16新標準的一些5G節能技術,「進一步降低27%的功耗」;再比如Imagiq 790 ISP,據說在4K HDR全功能錄製視訊時,功耗能做到「比競品低30%」…等。
HyperEngine遊戲引擎
在現代繪圖運算技術上,其實還有很多低功耗相關的方案,比如說VRS,不過這類技術被聯發科歸類到了所謂的HyperEngine中的智慧調控引擎方案裡。VRS也就是可變速率著色,是指對於畫面中沒那麼重要的物件(比如不怎麼影響視覺體驗的背景),可以不必做很精細的渲染,也就能夠發揮降低功耗的效果。
上圖提出聯發科AI-VRS在開啟和關閉之間,GPU資源佔用情況。除此之外,還有資源調度最佳化方案,都能夠不同程度地對遊戲降低功耗發會協助作用。對聯發科產品和技術熟悉的讀者應該很清楚HyperEngine技術,這是聯發科的「遊戲引擎」。天璣9000將HyperEngine升級到5.0版本,HyperEngine總共包括4個主要的組成部分,除了前面提到的智慧調控引擎以外,還有網路引擎、操控引擎和畫質引擎。
這幾大引擎的提升除了畫質引擎的光線追蹤支援,網路引擎、操控引擎都是對遊戲體驗的加成。比如網路引擎強調最佳化極端場景下的時延問題,這類技術在2年多以前剛剛發佈的時候,還是相當驚豔的,包括當時的Wi-Fi不同頻段,甚至加上LTE的併發;以及抗握姿干擾、複雜網路環境適應性等。
天璣9000的網路引擎在聯發科的宣傳中是「MediaTek FastPath專有協議快速通道+Wi-Fi/藍牙雙連抗干擾2.0+智慧天線2.0」,能夠在遭遇弱網、握姿遮罩和存在干擾的時候,以期盡可能維持在<100ms的網路延遲下。
操控引擎本次更新的是「智慧螢幕顯同步技術」,這項技術的本質是從觸控到顯示這個週期內,降低延遲的技術。其實這類技術和桌面PC平台遊戲技術進化的思路是一致的,Nvidia有個Reflex技術,是讓PC和顯示器更快地回應滑鼠與鍵盤輸入。這類細微體驗差異,對電競和高階玩家很有幫助。
低延遲對遊戲體驗加成的另一個技術點,還在於天璣9000對藍牙5.3的支持,加上藍牙LE Audio以後,聯發科表示藍牙連接的音效延遲可以降低32%。這對用藍牙耳機玩遊戲的用戶而言,應是相當有價值。
關鍵的2022年
本文主要談的就是天璣9000在遊戲方面的一些技術與努力,有關這顆晶片能談的其實還有很多,比如說APU、ISP。這次發佈會上,聯發科還特別談到了APU 590配套的開發環境與開發工具,及生態發展情況,是先前聯發科不曾公開談論過的(下圖)。
許多普通消費用戶更關心的應該還是搭載天璣9000的終端產品。天璣9000手機預計會在明年一季末上市,發佈會上我們聽到有關終端產品的資訊主要包括:
- OPPO下一代Find X旗艦系列,將首發天璣9000;
- vivo將成為率先採用天璣9000旗艦晶片的終端廠商;
- Redmi下一代旗艦K50也正蓄勢待發…天璣9000是K50宇宙不可或缺的關鍵性能拼圖;
- 未來將跟榮耀的新產品進一步深入合作。
與此同時,京東也和聯發科合作開啟了「京東天璣旗艦店」。聯發科顯然是要抓住天璣9000的機會,大肆開拓旗艦手機市場,所以這款產品的重要性不言而喻。事實上,聯發科當前已經是智慧型手機應用處理器出貨量比重最高的品牌。在旗艦與高端市場上有所作為,將成為新的一年裡,聯發科實現營收增長、明確品牌地位的重要一役。天璣9000的存在有可能會成為旗艦手機市場洗牌的關鍵,在Nuvia成果問世以前,筆者認為,高通明年的日子會更不好過。
本文原刊登於EE Times China




訂閱EETimes Taiwan電子報
加入我們官方帳號LINE@,最新消息一手掌握!