換個CEO就能做出M1那樣的處理器嗎?

作者 : 黃燁鋒,EE Times China

Intel十多年來在PC處理器技術上的碾壓級優勢,似乎在這短短兩年內就徹底喪失——不僅是Skylake這種「年邁」架構表現的弊端,而且在10奈米製程遲遲無法大規模量產的情況下,7奈米又再度延後...

2020年對Intel而言實在不是友好的一年。雖然Intel的財報仍未表現出大問題,但該公司在很多領域的前景是不樂觀的;AMD Zen架構處理器的強勢、Apple M1的問世讓情況火上加油,與此同時,資料中心市場顯現出的市場趨勢則是CPU逐漸被邊緣化,而Nvidia DPU在這方面展現明顯野心。

下圖PassMark的CPU市佔率數據雖然有「倖存者偏差」,但在截至今年1月12日的資料更新中,AMD的桌上型CPU市佔率已經出現自2006年以來首次超越Intel的成績——當然兩者的筆記型電腦CPU市佔率仍然相差較大,畢竟OEM客戶是Intel的基本盤。在整個x86 CPU市場,AMD的市佔率整體剛突破40% (PassMark)。

 

(來源:PassMark,注意這組資料帶有明顯的倖存者偏差,僅供參考。)

 

Intel十多年來在PC處理器技術上的碾壓級優勢,似乎在這短短兩年內就徹底喪失——不僅是Skylake這種「年邁」架構表現的弊端,而且在10奈米製程遲遲無法大規模量產的情況下,7奈米「又双叒叕」(EETT編按:中國大陸網路流行語,表示一而再、再而三)延後了半年。

AMD Zen3已經事實上在單核心和多核心性能上實現了對Intel處理器的全面超越——雖然Intel的行銷仍然相當頑強。而Apple Mac系列在拋棄Intel處理器之後,自研的M1晶片則可以說幾乎讓整個x86陣營汗顏──僅3.2GHz的主頻、低很多的功耗,就能將Intel最高階的Core i9踩在腳下,並徹底無視Intel最新的Tiger Lake (第十一代Core)。

x86陣營也開始做大小核心

Apple M1的出現向市場證明,Arm在PC高性能領域是大有可為的,與此同時還能兼顧低功耗。從《極客灣》的測試數據來看,日常工作中,M1版MacBook Pro的功耗之低,與整個x86陣營都是有量級差距的:到B站(EETT編按:中國的bilibili彈幕網)看個視訊,M1功耗在0.5~0.7W,而Intel Tiger Lake需要4~4.5W;待機功耗,M1達到了震驚PC處理器市場的0.02W,而Tiger Lake是1.1W。MacBook如今的續航因此可以達到20小時甚至更高。

這其實並不讓人意外,畢竟Arm平台的大小核心(big.LITTLE)設計早已是Arm晶片參與者做慣了的事。Arm過去始終在行動平台活躍,而手機之類行動裝置對功耗是非常敏感的,所以處理器採用大小核心搭配是必須的。

而x86陣營的參與者,如Intel,多是自PC處理器起家的,PC對功耗更不敏感(尤其是桌上型PC)。所以PC處理器也更傾向於透過提升頻率(而不是增加更多專用單元)來提升性能,自然也不存在「小核心」設計。兩者功耗上的差距顯得相當順理成章。

 

 

但在持續升頻的道路上,行動辦公逐漸風行的當下,Intel也一早就意識到了功耗需要有越來越高的優先順序。這兩天的CES 2021大會上,Intel再度提到了規劃中的「混合x86產品」 Alder Lake,也就是x86版的大小核心設計。去年Intel的Architecture Day 2020上,Intel正式宣佈Alder Lake產品藍圖:未來的Alder Lake處理器會將高性能運算核心(Golden Cove)與「高效率」核心(Gracemont)放在一起。

將其比作Intel版的M1晶片並不合理,畢竟Intel要做此類處理器的意願也不是M1出現後才有的,不過兩者大方向總算是一致的。Alder Lake會針對桌上型和行動兩個平台(這裡的行動主要只是筆記型電腦或同類裝置),這顆規劃中的晶片也事實上成為x86陣營針對Arm大小核心設計思路的反擊(主要是Snapdragon 8cx和Apple M1這類晶片)。不過在規劃上,Alder Lake需要等到今年下半年。而且Intel在這種大小核心設計方案上,也還處在試探期。

在Alder Lake之前,Intel於Architecture Day 2018展示了初代「混合x86處理器」產品──Lakefield,也是將Core和Atom架構處理器核心放在一起,作為Intel版本的大小核心。如今Alder Lake相關消息仍然很少,本文嘗試以Lakefield為依據,從技術角度談談x86陣營推行這種混合處理器,能否在Intel最艱難的歷史時期幫助該公司重回PC處理器市場巔峰——以及這種「混合」、「大小核心」設計究竟有多大價值。

另一方面,Lakefield處理器雖然目前的出貨還非常少,而且由於規格定義並不針對高階PC (與筆記型電腦)市場,但它幾乎可以認為濃縮了Intel當下最先進的一批技術;所以對Lakefield剖析,也能更全面地了解Intel如今在PC處理器市場的處境和底牌。

而且Lakefield不僅標誌著Intel PC處理器的未來規劃,也預示了PC處理器整個市場的未來,即便它本身只是x86指令處理器的試水之作(要知道AMD這邊到現在其實都還沒有自家的『小』核心設計,雖然早期架構的改款還是可以考慮)。

大小核心有意義嗎?

從Apple開始為MacBook採用M1晶片,以及Microsoft積極擁抱Arm、推類似Surface Pro X這樣的Arm筆記型電腦裝置(和Window on Arm)就不難發現,x86在筆記型電腦這樣注重移動性的設備上顯得不夠高效。拋開相容性問題不談,Surface Pro X在採用Qualcomm處理器以後,續航就遠高於x86版本的Surface;新版MacBook就更不用說了。

Arm的低功耗與其很早就推big.LITTLE (以及DynamiQ靈活搭配)設計是有很大關係的。這種大小核心設計,在面對輕度工作負載時選擇小核心,而在需求高性能時則用大核心去跑任務的方案基於一個事實:兩種核心在不同的性能區間,其功耗表現是大不一樣的。

Lakefield 「大小核心」的整體設計大致上可以反映這個思路。Lakefield搭配的大小核心分別是Sunny Cove (第十代Core的核心)和Tremont (最新的Atom核心),具體是1顆Sunny Cove搭配4顆Tremont。Arm陣營如今頗為常見的搭配方法是4+4,或者1+3+4/2+2+4,越來越多的手機晶片傾向於大中小三簇核心的搭配方法。

下圖大致能夠說明大小核心設計帶來效率提升的價值:

 

上圖是Intel官方解釋Lakefield兩種核心在不同性能下的功耗情況,橫軸代表相對性能,縱軸代表相對功耗,隨性能提升、功耗也在提升。圖左展示的是單執行緒下兩種核心的性能與功耗關係(橙色代表Sunny Cove-SNC,藍色代表Tremont-TNT),圖右標示的則是多執行緒性能與功耗關係。比較顯然的一個結論是,僅看單執行緒情況,在較低性能狀態下,小核心能夠達成更低的功耗;但到了高性能區間,小核心的功耗反而會「崩」,此時大核心的效率會更好。

更具體地說,在相對性能低於58%時,Tremont核心效率高很多,而在性能高於58%時,Sunny Cove顯然是更好的選擇。當然多執行緒性能又是不同的,畢竟Sunny Cove核心在Lakefield中就只有一個。Intel提供的數字是,Tremont在能效上打敗Sunny Cove時,最高可以達成Sunny Cove 70%的性能;性能水準介於Sandy Bridge (第二到第三代Core)和Haswell (第四代Core,2013-2014年)之間——整數性能與Haswell相近,同時效率會高很多。

事實上,Lakefield並不通過任務負載性能需求高低來決定用哪種核心工作。在Intel的定義中,Sunny Cove針對需要快速回應,以及與用戶體驗切身相關的執行緒;而Tremont則針對要求多執行緒性能的相關任務,以及需要在較高效模式下跑的非使用者相關幕後工作。比如視訊編碼工作,通常考慮用四個Tremont核心來跑,Windows幕後工作也交由Tremont完成;類似使用者點擊開始功能表、滾動網頁這種操作,要求快速回應,則交給Sunny Cove。

x86初代大小核心處理器性能如何?

Lakefield (Core i5-L16G7)的其他參數還包括CPU基頻1.4GHz,大核心的最高頻3.0GHz (全核心最高1.8GHz),不支持超執行緒,TDP 7W;核顯為Gen11 (GT2 64EU,500MHz,頻率遠低於Ice Lake);堆疊了8GB LPDDR4-4267記憶體;運算晶片部分的製程為10奈米。

從這些配置來看,就知Lakefield在性能表現上可能並不怎麼樣,定位的就是低功耗可攜式或者一些二合一設備。尤其多執行緒工作基本全部交給Tremont去完成——這讓Lakefield在很多情況下變身Atom處理器——對不起Core的名頭。

即便有一顆Sunny Cove大核心,也不支援超執行緒。另外比較重要的一點是,原本Sunny Cove是支援AVX-512指令的,但因為Tremont小核心不支援,所以為了達成「混合CPU」的這種大小核心設計,唯有令兩者對支援的指令完全達成一致,所以Sunny Cove也就閹割了對AVX-512指令的支援,另外閹割的還包括了AVX、AVX2,以及Tremont小核心的GFNI、ENCLV、CLDEMOTE等指令。

像這樣異質核心方案,在指令方面需要滿足「木桶最低板」的原則(或者跨所有核心的ISA相容性),在Arm世界也同樣適用。否則執行緒在大小核心之間遷移時,就會出問題。所以Cortex-A55作為Arm處理器的小核心被用了這麼多年不動搖,也是這個道理。

 

四顆Tremont核心簇的面積和一顆Sunny Cove相差無幾。

(圖片來源:AnandTech)

 

無論AnandTech還是WikiChip,都認為從Lakefield的die shot來看,Sunny Cove核心部分的AVX-512相關的單元並未被實際移除,雖然Intel宣稱是「移除」了的。Intel宣傳的數字是,相較於Amber Lake i7-8500Y (Intel的超低壓處理器,TDP 5W),Lakefield的多執行緒性能高24%,單執行緒則快12%,繪圖性能提升70%——這些變化實則都在預期內。以及有大核心的加持,web性能高出33%,效率提升17%——這一點對比的顯然就是單純的四核Atom了。可預期的是看B站會比以前省電…

另外比較重要的是每瓦性能提升24% (相較於Amber Lake),待機功耗「大幅降低」,達到2.5mW左右——這就和前文列出M1的待機功耗數字差不多了。達成最高的效率原本就是這種設計的重要目的。Apple在發佈會上最愛談的就是每瓦性能以表現晶片的高效率。在Architecture Day 2020上,Intel宣稱Alder Lake將能夠達成Intel有史以來最高每瓦性能——當然這是Lakefield後續產品了,也是Intel的預期。

當前針對Lakefield尚無十分系統的性能測試。已經上市的Lakefield產品主要包括了Lenovo ThinkPad X1 Fold、Samsung Galaxy Book S,以及Microsoft Surface Book Neo。NotebookCheck的實測資料是,Lakefield(i5-L16G7)綜合性能(也包括了核顯性能)弱於超低壓的Corei5-8210Y和四代Core4285U。

 

(來源:NotebookCheck)

 

這個資料可能並不是很合理,一方面在於NotebookCheck用於跑分測試的Cinebench版本(15與R20)多執行緒性能測試中甚至都無法用上Lakefield的Sunny Cove大核心(但卻的確能反映其實際使用情況,因為如前文所述,Lakefield中的Sunny Cove並不像很多人理解的那樣,是簡單用於「高負載」任務),另一方面和OEM廠商的具體實施方案有關。

Cinebench R23似乎是目前唯一能夠實現5核全開的測試,但網上找不到R23的Lakefield跑分。總之Lakefield大致上也就用來做word或者ppt文檔以及看看網頁和愛奇藝了。

Lakefield真的能成嗎?

最後來總結一下Intel在Lakefield處理器上現存的問題。首先Lakefield基本上是很難獲得市場大範圍的肯定的,即便它塞進了這麼多Intel最尖端的研究成果。不過Lakefield作為Intel首款涉足大小核心設計的處理器產品,其累積經驗的作用也明顯大於市場本身。下一代的Alder Lake才是值得觀察的關鍵。所以,問題應該換成:Intel的大小核心設計能成嗎?

事實上Intel在這種非其傳統強項的處理器產品中,遭遇的問題可能是形形色色的。從具體到抽象總結這種處理器「能成嗎」的關鍵,其一是scheduler (調度)。Intel先前並沒有設計大小核心處理器的經驗,Windows也始終不曾有不同類型的核心間做執行緒遷移的scheduler──Microsoft和Qualcomm「勾搭」上之後,必然在不同CPU設計間管理負載的scheduler有密切合作,但至少x86是沒有的;不過從Wikichip的介紹來看,Intel似乎也提交過非一致指令集的異質核心一起工作,針對作業系統的演算法和加強──要知道Android和Arm在這方面可是有著比較長期的演進的,包括執行緒遷移對實際體驗造成的影響;Apple就更不用說了。

 

Cinebench更早版本在做Lakefield多核心性能測試時,並不會啟用Sunny Cove大核心可能就能說明一些問題(但AnandTech猜測這可能是功耗或者熱聚集考量所致)。傳言未來的Alder Lake預計會包含8+8的設計,這其中的執行緒調度就不只是Intel如今列出、如上圖這樣Lakefield簡單的網頁流覽場景了。那將更考驗Intel的功力。

第二是處理器本身的性能。Lakefield宣傳中似乎的確有著不錯的功耗表現,但性能實在是不大夠看。這應該並不是什麼大問題,一方面在於Lakefield本身就不定位在高性能,另一方面則是這款產品試水和積累經驗的成分居多。在Architecture Day 2020上,Raja Koduri表示Intel從Lakefield身上學到了很多東西,Alder Lake未來會聚焦到性能上。

終極問題大概是,在性能和效率上Intel能否做到AppleM1那樣的程度。M1晶片表現出的性能和效率,我個人看來是基於三個要素共同構成的:其一是超寬的處理器架構,其二是有針對性地添加一些專用單元,其三則是對自家封閉生態超乎尋常的掌控力(令其能夠很隨意地做出同一記憶體架構這樣的東西)。

以上三要素可認為是僅有Apple這種掌控從晶片設計到開發生態、到消費性終端產品銷售完整流程的企業才有的資源。比如前兩者,超寬處理器架構和專用單元是需要以die面積(即成本)為代價的;Apple可以這麼玩,是基於其終端產品的高利潤與高銷量,對於Intel、Qualcomm這種單純賺取處理器利潤的廠商,這種玩法非常不經濟(x86還存在變長指令不利於解碼寬度拓寬這樣的現實問題)。要達到M1的性能水準不難,但效率就沒那麼簡單了。

還有其他的一些妥協,比如說前文提到的為實現指令的對稱性,Lakefield不支援AVX指令——這原本可是Sunny Cove主打的升級特性;再比如3D堆疊的兩層die分別用了兩個電源管理晶片(PMIC)。這些其實都表明Lakefield的不成熟,不過這些問題未來都有解決的辦法。

最後更抽象的是Intel的速度問題。這裡的速度是指Intel行事與決策的回應速度。不說Skylake縫縫補補新三年舊三年,最典型的是晶片製程已經落後於台積電(TSMC),且可預期的未來,行進速度還將非常緩慢。比如下半年大小核心處理器Alder Lake要用上10奈米Enhanced SuperFin (應該是第四代10奈米製程),這還是預期中的。屆時的市場格局或許都不好說了,以及7奈米製程遙遙無期(最早一批7奈米要等到2022年下半年或2023年上半年)。

若以多年前Intel在PC處理器市場的地位,這些問題或許都不足多慮。AMD「推土機」推了那麼多年,Apple也還偏安在iPhone上,Intel有的是時間;但在如今這般光景下,情況就相當不樂觀了。好在2021年下半年也還不算遙遠…Intel即將上任的新CEO也有多年技術背景,這預計也會加快Intel技術推進速度,這正是該公司目前最需要的。

Intel在去年的ISA Extensions Reference手冊上確認,Alder Lake還將加入新指令支援,包括LBR、HLAT、SERIALIZE,其中LBR可用於分支提速,對性能還有價值。從多方面來看,傳說中擁有最高每瓦性能表現的Alder Lake都成為Intel規劃的產品線中讓人最為期待的處理器,並且真正讓我們看到Intel在大小核心設計上的實力。

本文摘錄於EE Times China網站,完整閱讀請點此連結

 

 

 

 

 

加入LINE@,最新消息一手掌握!

發表評論