為什麼三星放棄自研CPU?

作者 : 黃燁鋒,EE Times/EDN China

次Exynos 990相比競爭對手依然有差距的事實。這裡將AnandTech的一些評論和測試做了綜合分享給各位...

筆者一直都覺得三星(Samsung)Exynos還是挺有趣的SoC。記得之前翻譯AnandTech的蘋果(Apple)A12和三星Exynos 9810評測文章的時候,有句話我印象特別深刻:「採用M3核心的三星Exynos 9810,能耗達到蘋果A11的兩倍,性能卻落後了55%(請注意,是A11)!」

爾後,AnandTech透過魔改(編註:常指對對一個既有的作品或事物進行大幅度、違背原作本意的修改)Exynos 9810系統層面調度機制的方案,達成了系統性能相較原版的一個顯著提升。這些其實都表示,三星在行動SoC設計和製造上都可認為是整體掉隊。所以也不難理解,三星為什麼決定放棄自研CPU架構,而Exynos 990是三星最後一款採用自研架構的SoC。

想必很多讀者也已經聽說了,這次Exynos 990相比競爭對手依然有差距的事實。這裡將AnandTech的一些評論和測試做了綜合,分享給各位。本文的絕大部分資料和內容均來自AnandTech,若需查看英文原文,可拉至本文末尾。筆者認為這篇文章能夠非常到位地闡釋,為什麼三星放棄了自研架構,因為無論從哪個層面來看,其自研架構不僅問題極多,而且還遠遠不及Arm 的架構。

請注意,區分本文的幾個詞彙:能耗(energy)是指跑測試消耗的能量,單位焦耳;功耗(power,或功率)是指單位時間內消耗的能量,單位瓦特;功效(power efficiency)一般是指每瓦性能;能效(energy efficiency)這裡特指每焦耳的性能。

這裡需要強調一點,日常所說的「能效比」,或者「效率」指的其實是power efficiency。本文的能效,嚴格意義上都不是用的這個通俗的意義。

綜述

三星LSI的這顆旗艦SoC是在去年10月宣佈推出。它在CPU大核心上採用了三星新一代的M5架構;中型規模的核心則升級到了Cortex-A76;採用新的Mali-G77 GPU。Exynos 990採用7nm LPP製造,即晶片的某些部分採用EUV微影。

Exynos 9820架構。

這裡看一下上一代的Exynos 9820,,也就是Galaxy S10採用的SoC,以此可瞭解Exynos 990做了怎樣的提升和變化。Exynos 9820的大核心簇是三星定制的M4架構,它跟Arm公版架構的差異還是比較大:從互連到快取(cache)一致性,都採用三星的Coherent Interconnect。Andrei Frumusanu(AnandTech著名博士編輯)對這種結構有做核心到核心的延遲測試,起碼它比Arm公版架構的延遲是要大出很多,當然也比Snapdragon 865明顯更糟糕。

Exynos 990架構。

Exynos 990相較Exynos 9820的改進其實還是比較多。首先三星這次終於在小核心上,將A55的L2 cache推升到了64KB。要知道Exynos 9810和9820在這方面就差一截,所以這兩款SoC相比以前的Snapdragon SoC,在效率上就有差距。不過64KB L2 cache,這個容量仍然只有Snapdragon 865的一半(128KB),三星在Arm核心的cache配置上還是比較保守。

中核心從先前的Arm Cortex-A75升級到了A76,頻率也有提升,從2.3GHz提到了2.5GHz,基於負載不同性能提升可達38~50%,也是Exynos 990大部分工作的主要動力來源。中核心的L2 cache仍然是每個核心256KB,共用的L3 cache也是比較保守的1MB。

大核心部分,早前代號為Cheetah(獵豹)的M4這次升級到了代號為Lion(獅子)的M5——也就是三星的自研架構。其最高頻率仍然是2.73GHz,三星宣稱會有20%的提升,應該主要是來自IPC提升。

外部可以觀察到的最大變化,在於M5大核心不再享有各自的L2 cache,而是2MB的核心共用L2 cache。現如今,這樣的微架構設計變化還是比較少見的。這一變化,從核心到核心的延遲降低能看得出來,畢竟這次的cache一致性是在更低的cache層級發生的,和CPU也靠的近。

Exynos 990採用三星7LPP製程製造,部分採用了EUV微影。TechInsights提到,Exynos 990是首個採用完整7LPP PDK(Process Design Kit)設計的晶片,這一點和先前的Exynos 9825還是有不同的。

三星宣稱,7LPP製程相比之前的8LPP有7%的性能提升,應該也意味著同頻功耗的降低。實際是個什麼情況呢?以下概括AnandTech的內容:

Exynos 990的binning(可以理解為根據不同的晶片體質,對晶片進行等級分組)看起來是比較糟糕的,而且絕大部分晶片都位元列相對較差的體質分組,甚至可能更糟,這表示這顆晶片的良率可能很不理想。

M5的核心電壓不是很樂觀,不僅在同頻下相比上一代M4(8LPP)沒有提升,而且隨頻率升高還表現更差了。M5需要更高的電壓,才能達到先前相同的頻率:同樣2.7GHz最高頻率,M5的峰值電壓為1,118mV,而先前的M4為1,068mV。

從功耗與效率曲線來看,縱觀性能變化週期內,M5核心顯然在效率上弱於Cortex-A76(同一個Exynos 990 SoC上的);Exynos 990 A55小核心的效率比先前的Exynos 9820要理想很多。

Exynos 9820時期,三星引入了一種更為複雜的scheduler,基於應用跑的指令集結構(ISA)選擇不同的功耗模型。這種機制會分別追蹤32位元和64位元 app,然後根據不同CPU在不同執行模式下的微架構性能和功耗特性,做出調度決策。三星宣稱這種機制能夠提升效率,更多的工作可能會分派給Arm中核心——因為A76在32位元執行效率上會更好。

從SPECint2006的綜合成績來看,其實很難看出這種執行模式有什麼大差別。但某些個別的測試子項,比如說456.hmmer——這是個偏向執行能力的測試,就能看出A76核心的優勢——A76核心在這個項目的成績上的確領先於M5核心。從這個角度來看,三星的調度策略是合理的。

另一個例子是,400.perbench在32位元模式下,A76核心同樣優於M5核心,所用功耗還低了超過一半。不過更偏儲存性能的負載,M5在跑分上還是有優勢的,這可能與兩者的cache尺寸差異有關。

AnandTech在文章中提到,這是AnandTech首次針對AArch32和AArch64兩種執行模式,分別公佈跑分成績。

在儲存延遲測試方面,Exynos 990相比Exynos 9820還是有提升的,但和Snapdragon 865比起來卻有差距。

以下這幾張圖是Exynos 990 M5(大核心)、Exynos 990 A76(中核心)、Exynos 9820 M4,以及Snapdragon 865 A77(大核心)的儲存子系統延遲對比。很顯然,相比Exynos 9820,可以看到Exynos 990的L2 cache在尺寸上變大。M5核心當然還是會有一些優勢,比如說3週期的L1延遲設計,Arm核心都是4週期。

去年的M4核心其實就存在TLB問題(Translation Lookaside Buffer,一種頁表的cache,是一個記憶體管理單元,用於提升虛擬位元址到物理位元址轉換速度),今年的M5這個問題並未得到合理解決。

這會導致一些比較無語的問題,比如說隨機訪問超過2MB的區塊,可能還比1MB尺寸內的速度更快。相比L2 cache區域,L3的cache line訪問,TLB未命中懲罰的訪問延遲還更低…(這也可能是16~64MB區塊內,Exynos 990弱於9820的原因)。

而A76核心部分顯然就比較符合預期了。A76的prefetcher原本就有比較大的提升,在Exynos 990之上也有體現,兩個A76中核心在某些資料訪問模式上是優於M5核心的。實際上,三星自M3設計以來,在儲存子系統方面就有比較大的問題,到M5也依舊未能解決。

從SPECint2006的測試結果來看,Galaxy S20的兩個不同SoC版本,Snapdragon 865相比Exynos 990,各方面都有優勢。主要表現在Snapdragon 865顯然在能效/功效方面有著比較大的提升。

先前Arm曾表示,A77核心相比A76會在性能上有進步,但兩者的能效(energy efficiency)其實是差不多的——也就意味著A77需要以功耗換性能。但Snapdragon 865則顯然超出了Arm的預期,不僅使用更少能耗(energy),而且功耗(power)也更低。

這可能和Snapdragon 865改用台積電N7P製程有關,這或許說明N7P製程較N7的確有顯著提升。

與上一代相比,Exynos 990當然也有性能提升,但肯定比不上Snapdragon的腳步。其中有一些成績比較詭異,比如403.gcc的成績還不如上一代。更悲傷的是功耗(power)和能耗(energy)。Exynos 990的能耗其實跟Exynos 9820很相近,有時略好,有時又略差。但在有性能提升的情況下,功耗卻也明顯發生了飆升。

其實功耗高,有時問題也不算大,只要能換得所需的性能即可,蘋果即是箇中翹楚——至少能效比是不錯的,而峰值性能對於提升體驗也是有幫助的。但這並不適用於Exynos 990,因為Exynos 990顯然性能也並不怎麼樣。

SPECfp2006測試情況類似,雖然Exynos 990的性能有提升,但卻是以高很多的功耗換來的——這個代價其實是得不償失。某些測試,比如447.dealII和470.lbm,在能效(energy efficiency)方面甚至還有30~40%的倒退。也有好的一面,433.milc這個子項,M5的成績比M4提升超過一倍,但功耗也就提升50%。

在整數測試的綜合成績中,Exynos 990相比Exynos 9820有17%的性能提升;浮點測試綜合成績,則有36%的提升。但Exynos 990相較Snapdragon 865,在這兩個大項上仍然分別落後了11%和3%。

絕對性能可能還不是什麼大問題,悲劇的其實主要是能耗(energy)問題。Exynos 990付出了雙倍的能耗,性能卻還略弱於Snapdragon 865!

很多讀者可能會想,三星的7LPP製程是不是嚴重不給力。有個對比物件,高通Snapdragon 765G用的就是三星7LPP製程。Snapdragon 765G的A76核心頻率2.4GHz,而Exynos 990中核心的A76頻率是2.5GHz。這兩者的性能和能耗非常相近,都明顯弱於台積電代工製造的A76 SoC(尤其是Kirin 990)。

可見三星7LPP的確不如台積電的N7/N7P/N7+製程,AnandTech提供的資料是,在功耗表現上差距可能達到20~30%。

不過就算把7LPP的差距算上,三星M5核心依然被A77核心遠遠拋在身後。Frumusanu說,雖然沒有看到Snapdragon 865和Exynos 990的die shot,不過他認為M5核心在面積上至少比A77大了3倍。

綜合來說,Exynos 990與Snapdragon 865相比,其效率差2倍,性能差10%,PPA總體就差了6~7倍。

在AI方面,三星宣稱Exynos 990的AI性能為10TOPS,綜合了NPU和DSP。理論上,Mali-G77應該也是可以參與AI運算。這其實一直也不是三星的長項,不過Exynos 990比前代在AI運算力上的提升很大。

從AnandTech的測試結果來看,NNAPI的INT8測試,Snapdragon 865更強。不過這一點其實仍有待商榷,因為它和軟體層面關聯很大,Frumusanu也認為三星很有可能針對NNAPI時只給了GPU資源。在NNAPI FP16這樣的測試裡,Mali-G77就有優勢;FP32測試,Exynos 990也表現很好。總體上,AI性能這部分,Exynos 990表現十分出色。

GPU部分,這個其實也是我個人一直想要去仔細看一看的。Exynos 990應該是首款採用Mali-G77 GPU的 SoC(也可能是天璣?),而且也是首款採用Valhall架構的GPU。去年筆者寫行動GPU比較的時候有提到,Mali-G77很可能會在性能上實現對Adreno陣營的反超。

Exynos 990在GPU方面選擇了11個核心的Mali-G77,頻率提升到800MHz,電壓也隨之提高了。由於Exynos 990也支援了LPDDR5,圖形運算面對3D渲染這類頻寬要求比較高的工作時,理論上會有更高的效率。

GPU性能測試,除了Snapdragon 865版Galaxy S20 Ultra在3DMark Sling Shot 3.1 Extreme Unlimited-Graphics 的測試中,有作弊的嫌疑,這裡就不放出具體成績了。後續測試則極大程度免除了作弊問題,所以本文著重看一些圖形測試的子項。

峰值性能上,Exynos 990和Snapdragon 865比較接近,但持續性能前者就會明顯比較弱了。這裡面不知道有沒有系統散熱設計的「鍋」,但這是基於同一個散熱設計。Basemark GPU 1.2測試裡,Galaxy S20 Ultra Snapdragon 865版的圖形性能,持續狀態也只損失了峰值性能的22%。而Galaxy S20+的Exynos 990版則在持續性能上還比不過上一代的Galaxy S10+。

但這裡面的溫控機制其實也很有「貓膩」,Galaxy S20 Ultra的Exynos 990在持續性能上表現最糟糕——還比不上S20+,可能應該從其他層面來找問題根源。

GFXBench圖形測試絕對性能的情況也類似,Snapdragon 865和Exynos 990的圖形運算峰值性能差不多,而Exynos 990顯然沒辦法持續穩定,很快因為溫控而產生性能較大程度的滑坡,其實這個滑坡幅度比Exynos 9820還要大。

而這項測試的功效(power efficiency)表現,也是今年高通Adreno被盛讚的一個點,即Adreno 650的效率跨越甚大,雖然絕對性能比不上蘋果,但效率已經追上蘋果A13了。至於Exynos 990,情況就比較悲劇——尤其跟進步這麼大的Adreno比起來,實在是有點拿不出手。筆者認為光從每瓦訊框率來看,情況還算不上太糟…

 

完整閱讀請連結EDN Taiwan網站

發表評論