北京時間9月2日晚,華為(Huawei)在德國柏林的IFA展正式發佈麒麟970 (Kirin 970)晶片。麒麟970採用10nm製程打造,CPU、GPU以及數據機全面提升,並號稱全球首次內建神經網路處理單元(Neural-network Processing Unit,NPU)實現人工智慧(AI)運算。該晶片預計將在10月16日德國慕尼黑發佈的Mate 10和Mate 10 Pro旗艦級智慧型手機上首用。

20170905_Huawei_NT41P0 華為消費業務CEO余承東進行以「終端智慧」為主題的演講

在麒麟970晶片上,總共包含55億顆電晶體——高通(Qualcomm)驍龍(Snapdragon) 835是31億顆,Apple A10是33億顆;面積約100平方毫米,驍龍835約為153平方毫米)。

20170905_Huawei_NT41P2

CPU與GPU:強調降低功耗

如果你非常看重手機SoC的CPU、GPU極致表現,麒麟970可能不會讓你太興奮。

CPU方面,麒麟970最大的改變是由之前台積電(TSMC)的16nm製程直接提升到了10nm,這可看出華為想要與競爭對手一較高下的決心,畢竟無論是驍龍835,還是聯發科(MediaTek) X30處理器都已經採用了10nm的製程。

20170905_Huawei_NT41P3

核心配置上,麒麟970與麒麟960基本相同,進行了小小的提升。採用4Cortex-A73+4Cortex-A53的公版大小核心設計,其中A73大核心主頻為2.4GHz(麒麟960是2.36GHz),A53小核心主頻為1.8GHz(麒麟960是1.84GHz)。

在發佈會上,余承東並沒有透露上述麒麟 970 CPU 性能相比960的變化,只表示麒麟970的能耗比提升了20%(主要得益於全新的10nm製程)。至於實際的性能表現,不出意外的話,麒麟970應該和麒麟960處於同一段位,不會有非常明顯的提升。

麒麟970並沒有用上ARM在今年5月發佈的新一代Cortex-A75、Cortex-A55架構以及為AI相關運算最佳化的DynamiIQ設計。當然,考慮到A75和A55的發佈時間、設計的複雜度,麒麟970沒用上也是可以理解的。

當然,橫向來看的話,麒麟970的CPU性能沒提升其實不是什麼大問題。從GeekBench 4等跑分軟體的得分上看,麒麟960的分數和高通驍龍835、三星Exynos 8895基本上處於同一水準,明顯強於聯發科Helio X30。因此,即使麒麟970 的CPU性能不變,也依然是Android陣營裡行動SoC的頂級水準,只是不再像麒麟960發佈時那麼領先。

20170905_Huawei_NT41P4

GPU上麒麟970提升的誠意更足些,用上了ARM今年5月剛發佈的Mali-G72 MP12,ARM的官方說法是相較G71性能提高20%,功耗比提升25%。在視訊方面首次支援HDR10,支援[email protected]視訊解碼與[email protected]視訊編碼。相機雙ISP,支援人工智慧場景辨識、人臉追焦、智慧運動場景檢測,夜拍效果增強。

此外,在核心數上,麒麟970的GPU也從麒麟960的8核心增加到了12核心。

實際性能上,余承東表示,相比起麒麟960,麒麟970的性能有20%的提升,並且能效比提升了50%。

照理說,由於麒麟970的GPU核心架構比麒麟960更先進,核心數還多了50%,並且製程更先進,GPU性能提升的幅度應該遠不止20%。之所以出現這種情況,很可能是華為將麒麟970的GPU主頻壓得比較低,從而更好地降低功耗(於是就有了提升幅度高達50%的能效比)。不出意外,麒麟960上出現的GPU「滿血跑」時功耗感人的情況,麒麟970上不會再出現。

基頻支援4.5G,比Gb級LTE更快

華為海思在基頻方面一直是殺手?,麒麟970也進行了較大提升,支援LTE Cat18,最高下載速度達到1.2Gbps(4x4MIMO、3CC CA’256QAM),要知道驍龍835號稱GB LTE的最高下載速度為1Gbps。

20170905_Huawei_NT41P5

麒麟970還終於支援了在同時使用兩張SIM卡時,主副卡同時用4G(上一代麒麟960的副卡只能支持3G)。此外,麒麟970還特別針對高鐵時的使用做了最佳化,訊號更穩定,減少訊號中斷。

不過話還是要說回來,雖然麒麟970的通訊基頻確實厲害,但和驍龍835、Exynos 8895等支援Gb級LTE的SoC一樣,普通用戶想要真正體驗到這種超高速LTE網路,還得過上相當一段時間。

一方面,超高速LTE網路需要營運商的支持,雖然目前全球不少營運商(包括中國聯通)已經開始了Gb級LTE的測試,但距離大規模商用還仍需時日。另一方面,在手機端,除了需要SoC自身的基頻支援,如果要支持Gb級的LTE,手機廠商還必須在手機的天線設計上投入額外的精力,以搭載驍龍835的手機為例,在目前上市的眾多驍龍835手機中,真正能支援到Gb級LTE的只有三星Galaxy S8、HTC U11等少數國際品牌機型的部份型號。

ISP、DSP、Codec、協同處理器

麒麟970的ISP主要是一些「常規升級」,依然是雙核心設計,擁有更快的速度,更快地對焦,更優秀的降噪效果,並且對運動影像的擷取做了最佳化。

20170905_Huawei_NT41P6

在DSP、配套Codec等方面,麒麟970也有所提升,其中配套的音訊Codec可以支援32bit/384k的音訊解碼,過去幾代華為高階機型(Mate、P系列)上表現乏善可陳的內放音質,有望在麒麟970這代產品上獲得明顯的提升,當然前提是Mate10和P11系列還能保留3.5毫米耳機插孔。

另外,麒麟970依然搭載了i7協處理器,而inSE和TEE安全引擎也都在在麒麟970上。

在匯流排架構上,不出意外的話,麒麟970採用的應該是和960相同的CCI-550。

在發佈會上,余承東也表示,台積電的10奈米製程可以降低20%的能耗,將晶片核心面積縮小40%。

不過有趣的是,麒麟970的核心面積並沒有因為製程的進步而縮小,反而比麒麟960還要略大,這是因為麒麟970整合了高達55億個電晶體,比麒麟960多出了15億。

55億個電晶體是什麼概念呢?大家可以參考幾個數字:英特爾(Intel)在2014年發佈的擁有18個核心的至強E5CPU,也才內建55.6億個電晶體。在更具對比價值的行動SoC中,以「堆料」著稱的蘋果(Apple) A10擁有33億個電晶體,高通驍龍835擁有31億個。

需要說明的是,雖然電晶體數量對性能有一定的影響,並且通常是越多越好,但在晶片製程、架構不同的情況下,我們是無法簡單地用電晶體數量來判斷性能的,尤其是在內部元件眾多的行動SoC中。

AI晶片NPU秒殺蘋果三星

最特別的部份,麒麟970也是全球首款內建NPU的人工智慧處理器,NPU運算能力達到1.92TFP 16OPS。根據內部測試顯示,這種性能允許麒麟970每分鐘處理2005張影像,而在沒有NPU的情況下每分鐘只能處理97張影像。

20170905_Huawei_NT41P7

關於這顆NPU的功能,大家可以簡單理解為專門高效地進行AI相關運算客制的處理器,就像GPU之於圖形處理相關的運算,ISP之於成像相關的運算。從現場展示來看這種處理資料遠勝三星S8以及iPhone 7。

傳統的CPU(包括x86和ARM)和GPU也可以用來做深度學習運算的,但由於它們本身並不是專門為深度學習客製化的,效率並不高。余承東表示,麒麟970在AI任務下完成比正常CPU內核心快25倍的特定任務,並且能夠減少50倍的功耗。同時華為也將開放其人工智慧的處理平台。

20170905_Huawei_NT41P8

從上圖可以看到,性能上,NPU是CPU的25倍,GPU的6.25倍(25/4),能效比方面,NPU更是達到了CPU的50倍,GPU的6.25倍(50/8)。

在華為內部的測試中,麒麟970的NPU每分鐘可以辨識出2005張照片,而不使用NPU的話則每分鐘只能辨識97張(這個速度應該是用CPU進行運算的),優勢同樣巨大。

至於這顆NPU具體能實現哪些特別的功能,我們還需要等到Mate10、Mate 10 Pro才能揭曉。在發佈會上,余承東提到了一些NPU在拍照方面的應用。

在拍照時,NPU可以幫助手機更精準和快速地辨識拍攝場景,讓手機選擇最合適的影像處理演算法,在雙攝影背景虛化時,讓手機對邊緣虛化的處理更準確,還有最近很火的擴增實境(AR)相機,NPU可顯著提高渲染的速度,降低功耗。

再比如說,有了NPU之後,手機可以將語音和語義辨識的部份工作轉移到手機本地,提高語音和語義辨識的表現,提高手機中語音互動應用(例如語音輸入法、智慧語音助理)的體驗。

據此前報導,麒麟970的這顆NPU採用了來自寒武紀(Cambricon)的IP,專門為深度學習而客製。

Mate10新機外形曝光

華為表示,麒麟970晶片預計將在10月16日發佈的華為Mate10新機上首用。麒麟970的官方宣傳片上也出現了一款全螢幕手機的輪廓,而Mate10極有可能將採用這樣的外觀設計。

20170905_Huawei_NT41P9

今天麒麟970正式發佈,且不說其具體跑分如何,至少從全球首次搭載的NPU晶片上來看,已經完勝驍龍、聯發科、蘋果、三星等處理器。而在這個十條手機新聞中有八條都是iPhone 8的時候推出麒麟970晶片,也可以看出華為要做業界老大的決心。