探索三星Exynos 1080手機處理器技術細節

作者 : 黃燁鋒,EE Times China

Exynos 1080並非旗艦定位,其同檔競爭產品應該是麒麟820、驍龍765G。值得一提的是,三星此前宣佈不再採用自研架構的CPU,實則與Exynos 1080/980這個定位及以下的產品也是無關的,比如Exynos 980採用的是Cortex-A77大核心,而Exynos 990的大核心才是三星自研的M5。猜測這一代更高定位的Exynos 1090會加入Cortex-X1大核心。

三星電子系統LSI事業部門(System LSI Business of Samsung Electronics)上週在上海舉辦了Exynos 1080晶片的發表會,這是三星System LSI首次在中國大陸為首發晶片產品召開記者會,但這個動作應該是在很多人的意料之中──本月稍早韓國媒體《BusinessKorea》就有報導指出,System LSI「計畫在2021年向中國智慧手機製造商提供Exynos晶片,」而且除了常規合作夥伴vivo之外,還包含OPPO和小米等手機品牌。

所以在中國大陸召開的Exynos新品發佈會,顯然是三星System LSI要鋪開中國市場的開端——預計明年我們會看到更多中國國產手機搭載三星Exynos晶片。

Exynos 1080並非旗艦定位,理應屬於Exynos 980的繼任者,而非Exynos 990;其同檔競爭產品應該是麒麟820、驍龍765G。值得一提的是,三星此前宣佈不再採用自研架構的CPU,實則與Exynos 1080/980這個定位及以下的產品也是無關的,比如Exynos 980採用的是Cortex-A77大核心,而Exynos 990的大核心才是三星自研的M5。猜測這一代更高定位的Exynos 1090會加入Cortex-X1大核心。

Exynos 1080的一些亮點

在這場發表會上,三星透露的Exynos 1080晶片技術細節比較少,但筆者仍然期望借著這篇文章來簡單談談其中的一些亮點。主要包括了三星的5奈米(nm)製程,以及這顆晶片的CPU部分率先採用的Cortex-A78大核心。

Exynos 1080主要配置如下:

  • CPU:1x Cortex-A78 2.8GHz,3x Cortex-A78 2.6GHz,4x Cortex-A55 2.0GHz;
  • GPU:Mali-G78 MP10;
  • 記憶體支援:四通道 LPDDR4 & 5;
  • ISP:單攝2億畫素支援,雙攝3200萬+3200萬畫素支援,最多可接收6個感測器訊號(6攝),同時可接收3路輸入訊號;
  • NPU:與DSP聯合算力5.7TOPS,另可與ISP協作,實現AISP 「AI影像處理」;
  • Modem:支援5G Sub-6GHz 5.1Gbps下行 1.28Gbps上行;毫米波 3.67Gbps下行 3.67Gbps上行;支援2G~4G網路,4G LTE Cat.18 6CA 1.2Gbps下行 2CA 200Mbps上行;
  • 其他無線連接:藍牙5.2,WiFi 6;
  • 其他:顯示支援WQHD+ 90Hz,FHD+ 144Hz;HDR+高動態範圍視訊技術,原生10bit 4K 60fps視訊編碼與解碼;遊戲加入了Amigo電源管理系統;
  • 生產製程:三星5奈米(5LPE)。

這裡面還是有不少內容是值得拿出來好好說一說的,但因為篇幅關係,本文僅略微帶過。其中CPU終於採用了Cortex-A78,這是Arm今年年中對外公開的CPU IP。前不久的華為麒麟9000就沒有趕上Cortex-A78的時髦。

Exynos 1080的CPU整體是1+3+4的核心搭配,其中有個頻率最高的Cortex-A78核心,頻率為2.8GHz。這個頻率在如今的旗艦市場上是不算高的。高通(Qualcomm)驍龍865+與麒麟9000的Cortex-A77大核都已經把頻率提到了3.0GHz以上。但2.8GHz還是比Exynos 980的2.2GHz要高不少的。這一點其實也能看出Exynos 1080的定位是偏次旗艦的。

三星半導體中國研究所所長潘學寶表示,與上代產品相比,CPU單核心性能提升50%,多核性能提升100% (基於Geekbench 5的數據)。這裡的所謂「對比上代」是指Exynos 980。不過50%和100%的提升仍然是比較恐怖的數字,略有旗艦水準,尤其大核心Cortex-A78應該是貢獻良多,單就三星宣稱的Geekbench 5成績來說,應該已經超過了驍龍865的水準。

Exynos 1080的GPU部分是Arm最新的Mali-G78,麒麟9000採用的也是這個GPU。但在規模上前者就遠遠小於後者了:麒麟9000的GPU是採用Mali-G78最高支持的24個核心,而Exynos 1080為10核心。三星沒有公佈GPU的頻率,只是提到「運算核心從原來5個提升到10個,記憶體通道由雙通道變為四通道,」這顯然說的就是對比Exynos 980了。與此同時,「GPU性能相比上代提升130%,是上代的2.3倍之多(基於Manhattan 3.0測試資料)。」

先前Exynos 980的GPU大約可以應付《和平精英》這類遊戲的中低特效,雖說Exynos 1080的GPU規模僅有麒麟9000的一半不到,不過這次至少相比前代應該會有遊戲方面較大程度的提升,而且效率可能會提升不少——當然主要還得看具體的實施方案。

Mali-G78是Valhall架構的第二代核心IP,G78實則相比G77是個小改款。不過在性能和效率上,Mali G76/G77已經與同代的高通Adreno比較接近。上代Exynos 980採用的是Mali-G76MP5的方案,G76仍然是Bifrost架構,所以在架構翻新、核心數翻倍、製程改進的基礎上,性能提升130%是在意料之中的。(有關G78的更多內容可參考「全面剖析麒麟9000:華為Mate 40碾壓了誰?」一文。

在繪圖運算部分,比較值得一提的是潘學寶提到的Amigo電源管理方案。這是主要針對遊戲的一個方案。潘學寶表示,這種節電解決方案能夠即時監控各流程電源消耗情況,優化遊戲過程中的總功耗,令電源效率提高10%;「在遊戲運行時,動態監測功耗,並作出預測,即時給出最佳電源分配方案,保證遊戲性能的同時,節約整體功耗。」

 

(圖片來源:EE Times China)

 

潘學寶表示:「拿《王者榮耀》做測試,Amigo能夠在保證性能不變的前提下,總體耗電下降10%以上;」除此之外,他並未再透露更多有關這項技術的細節。不知道這是個硬體方案,還是個軟體方案。聽起來和華為的GPU Turbo以及更為傳統的reactive DVFS驅動有些類似(一個是GPU驅動之間有個監聽層,用於監聽渲染調用/呼叫;另一個則是透過硬體計數來監聽GPU利用率,再做調整;前者有著更細的調節細微性),而且GPU Turbo實際的功耗紅利也在10%左右。

以上硬體參數中,另外值得一提的是AISP,即「基於AI的影像處理」,也就是NPU+ISP的融合。這一點,麒麟9000的媒體溝通會上也提過。筆者在先前的文章中也曾提及,NPU+ISP是拍照與視訊拍攝後處理的一個趨勢,Apple和Google在更早之前就已經在做了,Google也時常介紹Pixel手機怎樣利用機器學習,做自動白平衡、防手震等的加強——雖然Google是通過外置一顆PVC晶片的方案。

所以潘學寶也提到,透過NPU做拍攝物體與風景的檢測,優化白平衡與曝光——這在當代算是比較常規的思路。不過三星並未透露Exynos 1080所用的NPU型號和性能。三星有將NPU與DSP融合做AI運算的傳統。Exynos 1080的官方頁面提到,NPU+DSP令Exynos 1080能夠達到至多5.7 TOPS的性能表現。作為參考Exynos 990的AI算力在15 TOPS左右。

三星的5奈米製程

這顆晶片的亮點主要在5G modem和5奈米製程上。有關5G支援部分,支援載波聚合達成5.1Gbps最高下行速率。三星對此介紹也比較簡單,這還是要看終端產品的實施方案。另一方面,以Exynos 1080的定位,想必明年也會有更多便宜的5G手機上市了。

5奈米製程很有必要多談一談。Exynos 1080的5奈米製程具體應該是5LPE。三星半導體System LSI市場部副總裁CY Lee在發表會上提到,三星5奈米 EUV製程,晶片面積減少25%,功耗效率提升20%,性能表現提升10%。這組數字其實還是比較抽象的。

三星5LPE相對於7LPP製程來說,算是個1/4代製程——這一點就與台積電N5很不一樣(三星技術藍圖中,7LPP、6LPP、5LPE、4LPE都屬於一代內的進化,而下一代製程應該是3GAE),或者說三星7LPP->5LPE的躍進幅度遠沒有台積電N7->N5那麼大。其標準單元庫的電晶體密度提升1.3倍。

實際上,5LPE製程電晶體的fin pitch、gate pitch、metal各層間距基本上都沒什麼變化。從Wikichip的資料來看,5LPE的UHD(超高密度,54PP)單元庫密度在126.89 MTr/mm2(HD單元庫密度91.36 MTr/mm2)。

如果一定要對比的話,台積電N5製程的超高密度庫電晶體密度在171.3 MTr/mm2,相比N7的密度推進為1.84倍。當然電晶體密度的計量方法有差異,而且電晶體在晶片上也不是均勻分佈的,以及即便是同代製程的不同單元庫的密度也不一樣,所以不同廠商的電晶體密度數位實則並不應該直接比較。

5LPE實際上更像是三星7奈米製程的一個擴展。因為三星在先前的製程藍圖上,7奈米製程就已經比別家的更為激進,更早在某幾層採用了EUV。所以5LPE所用的電晶體、SRAM也都和7LPP基本相同。而且7LPP的設計IP在5LPE上是可以重複使用的,遷移比較順暢。電晶體各項參數沒什麼變化,又如何實現密度提升呢?這就叫「scaling booster」了,主要還是從單元(cell)來著手。

 

圖片來源:High-Performance 5LPE Implementation Next-Generation Arm “Hercules” CPU. Kevin K. Yee (Samsung), Fakhruddin Ali Bohra (Arm), Edson Gomersall (Cadence). Arm TechCon 2019

 

5LPE最大的提升是新的6T UHD單元庫,主要特性包括SDB (single diffusion break)、36奈米的M2間距,CB on RX edge等(RX是指單元的活躍區域,CB屬於額外的本地導線層,在單元內橫向佈局,將接觸層的觸點連接到多晶矽本地導線——位於第一層金屬層之下,也就是MOL導線;所以CB on RX edge也就是CB導線層用到單元活躍區域邊緣);還增加了一種低漏電的1-fin device (1個p fin,1個n fin)能夠提供至多20%的功耗節約。

這裡的SDB,筆者在介紹Intel 10奈米製程的文章裡也提到了,實際上就是單元之間共用單個dummy gate的方案,對於增加電晶體密度都是有價值的。三星曾在14奈米製程中用過這個結構,只不過7奈米沒有採用SDB,而是DDB(也就是兩個dummy gate)。前面這些都屬於常規電晶體縮放之外的技術,被稱作scaling booster。

5LPE相較7LPP的實際提升是:對於HD高密度(7.5T)庫而言,性能提升了11%(同功耗下,速度提升11%;同性能下,功耗降低約20%);而UHD超高密度(6T)庫則實現了大約33%的密度提升,也就是前面提到的126.89 MTr/mm2。下面這張圖是三星在Arm TechCon 2019會議上提供的:

 

再看下Wikichip畫的這兩種單元庫,相比之前7奈米單元之間的差異。8奈米和7奈米 HD單元都減掉了一個fin,而且7LPP每個fin也實現了更高的驅動電流,也就能有更好的性能——減fin則能夠獲得面積方面的收益。5LPE的UHD單元庫再減1個fin——所以整個單元高度就變小了,加上稍作加強的電晶體(包括low-k spacer、DC加強等),實現面積和功耗的小幅縮減。

 

來源:WikiChip (https://fuse.wikichip.org/news/2823/samsung-5-nm-and-4-nm-update/)

 

當然,若考慮性能的話,HD庫還是必要選擇。HD庫的CPP (gate pitch)仍然是60奈米,和7LPP製程一樣,另外單元間用MDB (mixed diffusion break,混合間隔,即pMOS用SDB,而奈米OS用DDB),性能肯定會更好。

最後再花一點筆墨談談Arm的Cortex-A78處理器核心。Cortex-A78仍然是Arm v8.2指令集的一顆CPU;它也是Austin家族中的第三代產品。Cortex-A78的微架構調整,從前到後主要著重在效率提升,包括面積效率和功耗,尤其是針對A77的部分結構和尺寸做了縮減——針對那些收益並不是很高的資源做縮減,或者說進一步找准了性能與功耗/面積的甜蜜點。

前端部分最大的變化是分支預測器:除了精度提升外,現在能夠處理至多每週期2個分支——平衡了去年A77後端多出的第二個分支執行單元。即A78每個週期可並行處理2個預測,增加這部分的核心吞吐,並且更快地從分支錯誤預測中恢復過來。前端設計變化主要還包括可選32KB的L1I cache (指令緩衝記憶體)。

核心中段到執行管線部分,絕大部分提升是針對面積縮減和能效提升的:包括更多的指令融合;發射序列設計新結構提升能效;暫存器重命名結構和暫存器堆,也特別針對效率做了優化——包括尺寸的縮減,條目密度增加,相同空間內可以容納更多資料,減少結構的整體尺寸,但對性能無影響;re-order buffer效率,可以塞進更多指令;亂序視窗尺寸縮減;6Mops的dispatch寬度,應該是比去年增加了的。

執行部分,唯一較大的變化是整數執行模組,升級了一條更複雜的ALU管線,可處理乘法,令整數MUL寬度加倍。核心後端和記憶體子系統有更多相關性能的調整。首先是新的load AGU (位址生成單元),令核心的load操作頻寬增加了50%;load/store佇列到L1D cache (資料緩衝記憶體)的頻寬翻倍,核心到L2的讀取與寫入頻寬翻倍;可選更小配置的L1D(32KB);L2 TLB縮減至1024 pages——仍然足夠因應4MB L3 cache。

這麼看下來,感覺的確有不少的結構、尺寸縮減。Cortex-A78作為著重在效率提升上的一代微架構,看來明年高性能的擔當的確會落在Cortex-X1身上。最終還是落地到Exynos 1080身上來看看吧…市面上還不怎麼能見到採用A78核心的CPU產品。因為沒有比較對象,我們無從瞭解Exynos 1080對於Cortex-A78的實施方案具體怎麼樣。Arm年中提供過一組A78相較A77各方面提升的資料,但那些主要是基於台積電的N5製程——就讓此處的對比沒有那麼湊效,所以提升數字就權當參考。

 

Arm的數字是,一個核心相同的1W功耗下,A78 (3.0GHz,N5製程)會比A77 (2.6GHz,N7製程)提升20%的性能;而在相同的性能水準上,A78(2.1GHz,N5製程)功耗是A77(2.3GHz,N7製程)的一半。這兩組比較看起來還是略有點隨意的…如果以相同製造製程為前提,加上相近的核心配置,A78相比A77大約有7%的性能提升,同時降低4%功耗和4%的佔位面積。

三星提及Exynos 1080的Geekbench 5單核性能成績相較Exynos 980提升50%。考慮這兩代產品製程上是8LPP->5LPE,頻率提升27%,外加架構反覆運算,似乎有50%的性能提升還算合理。但Arm針對兩代架構所說的20%性能提升,實則已經加入了頻率和製程差異。個人認為50%的性能提升還是略超出預期的——或許5LPE製程帶來的性能提升是部分超出了預期的。

有興趣的同學可以參考聯發科天璣1000(2.6GHz Cortex-A77,N7製程)以及Exynos 980(2.2GHz Cortex-A77,8LPP製程)的Geekbench 5成績來算一算,按照單核心性能50%提升、多核心100%提升,Exynos 1080的性能水準在哪裡,以及5LPE製程和Cortex-A78架構實際可能帶來了多大的性能紅利。

 

 

另外,三星不曾在發表會上提到Exynos 1080的功耗與能效表現。Arm先前公佈的資料顯示,在A77達到峰值性能,且A78達到與其相同性能的情況下,A78的功耗可降低至多36% (相同功耗水準下,A78提升性能至多7%)。所以Exynos 1080 CPU的效率還是可以期待一下的。

整體來看,上述CPU提升,再加上Exynos 1080對GPU的Mali-G78MP10實施方案,若三星在設計和製造上都相對得宜,這顆晶片或許會成為明年非常有競爭力的甜品級、且長壽命的晶片。因為其各方面表現都比較均衡,而且性能和效率就中階市場定位來看,還有個飛躍。

三星在發佈會上提到,首款搭載Exynos 1080的手機會由vivo推向市場。另外三星也強調了vivo也參與了Exynos 1080的研發過程。這些在去年的Exynos產品中就已經是傳統了。就紙面數字來看,三星的確在推廣自家晶片、拓寬晶片市場的問題上開了個好頭,具體還是要看這顆晶片的實測表現——以及Exynos 1080將會在多少機型上應用。

本文原刊於EE Times China網站

 

 

 

掃描或點擊QR Code立即加入 “EETimes技術論壇” Line 群組 !

 EET-Line技術論壇-QR

發表評論