全場景全堆疊AI戰略

華為最近正式發佈了Ascend-max系列AI晶片昇騰(Ascend)910,以及全場景AI框架MindSpore,進一步明確了其全場景全堆疊AI戰略。基於華為原生全場景(all-scenario native)的AI全堆疊解決方案包括Ascend、CANN、MindSpore、應用使能四個層次。

˙Ascend是基於統一、可擴展的達芬奇(Da Vinci)架構的系列化AI IP和晶片,包括Max、Mini、Lite、Tiny和Nano五個系列。

˙CANN是晶片運算元庫和高度自動化運算元開發工具,目標是兼具最優開發效率和運算元性能,以應對學術研究和產業應用的蓬勃發展。CANN是神經網路運算架構(Compute Architecture for Neural Networks)的縮寫,提供了高性能的CCE運算元庫,其關鍵元件是高度自動化運算元開發工具Tensor Engine。

˙MindSpore為支持端、邊、雲獨立和協同的統一訓練和推理框架,明年將對外開放。它包括模型庫、圖運算和調優工具包等核心子系統,具備ML/DL/RL的統一分散式架構,靈活的程式介面,並支援多種語言。MindSpore可以很小,也可以很大,以適應不同的環境。

˙應用使能層是一個機器學習PaaS,提供全流程服務、分層分級API,以及預整合方案,目標是滿足不同開發者的獨特需求,使AI的採用更加容易。ModelArts就是這種完整的全流程服務,可將模型生產所需的所有服務一站式提供,從獲取資料到模型訓練,直到適應變化。

揭開達芬奇神秘面紗

Ascend IP和晶片是華為全場景全堆疊AI戰略的基石,所採用的是華為自研的達芬奇AI核心架構。這個以中世紀文藝復興時期科學和藝術奇才達芬奇(Da Vinci)命名的AI核心架構究竟有多神奇呢?在2019 Hot Chips大會上華為揭開了達芬奇架構的神秘面紗。

華為海思首席科學家、Ascend總架構師廖恒透過視訊(因為美國政府限制而無法去矽谷)在今年的Hot Chips大會上介紹了華為基於達芬奇架構的AI加速器晶片、軟體和系統。Ascend 910晶片主要針對資料中心的雲端AI訓練,在很多方面似乎已經超越英特爾和發佈歷史上面積最大晶片的AI晶片初創公司Cerebras,其半精準度(FP16)運算力達到256Tera-FLOPS,整數精準度(INT8)運算力達到512Tera-OPS,達到規格算力所需功耗僅310W,低於原來的設計規格350W。華為已經把Ascend 910用於實際AI訓練任務。比如,在典型的ResNet50 網路的訓練中,Ascend 910與MindSpore配合,與現有主流訓練單卡配合TensorFlow相比,顯示出接近2倍的性能提升。

20190903NT61P1 圖1 Ascend 910包含32個達芬奇核心。(資料來源:華為)

20190903NT61P2 圖2 由Ascend 910驅動的AI伺服器整合8顆達芬奇晶片和2顆X86 Xeon CPU。(資料來源:華為)

Ascend Cluster可能是當今世界上最大的分散式訓練系統,把1,024個最高運算密度的Ascend 910晶片連接到一個運算群集中,提供256 PetaFLOPS超高運算能力,能以前所未有的速度進行模型訓練,使在幾分鐘或幾秒鐘內實現訓練目標成為可能,同時結合32TB HBM,如果需要,可以更容易地開發比以前更大的新模型。

20190903NT61P3 圖3 Ascend 910伺服器集群性能高達512 Peta Flops。(資料來源:華為)

去年發佈的Ascend 310屬於Ascend-mini系列,是華為已經投入商用的第一顆AI SoC晶片。在最大功耗僅8W的情況下,其整數精準度(INT8)運算力達到16Tops,半精準度(FD16)運算力達 到8Tops。同時,該晶片中還整合了16通道全高畫質視訊解碼器,是針對邊緣運算場景最強算力的AI SoC。基於Ascend 310晶片的產品和雲服務已獲得廣泛應用,其中,基於Ascend 310的MDC和很多主流車企在園區巴士、新能源車、自動駕駛等場景已經深入合作。基於Ascend 310的Atlas系列板卡、伺服器,已經與數十家合作夥伴在智慧交通、智慧電力等數十個產業落地產業解決方案。

20190903NT61P4 圖4 Ascend 310和910之性能對比。(資料來源:華為)

規劃中的Ascend系列還包括針對PC和筆記型電腦的Lite、針對行動手機設備的Tiny,以及針對可穿戴智慧設備的Nano系列IP和晶片。

破解達芬奇密碼

華為為何選擇統一架構來開發Ascend晶片?原因如下:

˙統一架構的好處很明顯:只需一次運算元開發,然後可在任何場景下使用、跨場景一致開發和除錯體驗;更重要的是,一旦完成某個晶片的演算法開發,就可順利將其遷移到針對其他場景的其他IP或晶片上。

˙達芬奇架構設計的核心理念:以最小的運算代價增加矩陣乘法的運算力,實現更高的AI能效。達芬奇架構採用3D Cube針對矩陣運算做加速,大幅提升單位功耗下的AI運算力,每個AI核心可以在一個時脈週期內實現4,096個MAC操作,相比傳統的CPU和GPU實現數量級的提升。

˙它具有可擴展運算、可擴充記憶體和可擴展互連等三大獨特關鍵技術,使得統一架構成為可能。

20190903NT61P5 圖5 達芬奇核心模組示意圖。(資料來源:華為)

為實現可擴展的運算能力,達芬奇架構採用了一個可擴展的Cube作為超高速矩陣運算單元,在其最大配置(16×16×16)下,一個Cube可在一個時脈週期內完成4,096個FP16 MAC運算。鑒於需要支援的巨大動態範圍,16×16×16 Cube是性能和功耗的最佳平衡點。以16×16×16為中心,具有Cube Scale in功能和高效的多核心堆疊功能,這樣就可以使用一種架構來支援所有場景。對於那些運算能力較低的應用場景,Cube可以逐步縮小到16×16×1,這意味著在一個週期內完成256個MAC運算。這種靈活性與一套指令集結合,成功提供了運算能力和功耗的平衡。透過支持多種精準度,可以最有效地執行每項任務。

鑒於極高的運算密度,當電路全速運行時,電源的完整性變得至關重要,皮秒級電流控制技術有效地滿足了這一極其關鍵的要求。與此同時,達芬奇核心還整合了超高位元向量處理器單元和標量處理器單元,這一多種運算設計使得達芬奇架構不僅支持矩陣以外的運算,而且可以適應未來神經網路運算類型的潛在變化。

20190903NT61P6 圖6 3D Cube矩陣單元具有很高的運算密度。(資料來源:華為)

為實現可擴充記憶體,每個達芬奇核心都配備專用SRAM,其功能固定、容量可變,適應不同的運算能力場景。所有這些記憶體都設計為對低層軟體顯性,因此可以透過Auto-Tiling plan配合實現資料多工的精細控制,最終達到最佳性能和功耗平衡,以適應不同場景。

針對資料中心應用,片上超高頻寬Mesh網路將多個達芬奇核心連接在一起,保證核心之間以及核心與其他IP之間的極低延遲通訊。借助頻寬高達4TByte/s的L2 Buffer和1.2TByte/s HBM,高密度運算核心的性能得到充分利用。透過使用2.5D封裝製程,Ascend 910晶片整合了8個裸片,包括運算、HBM和IO。

20190903NT61P7 *圖7 Ascend 910裸片佈局和整體尺寸。(資料來源:華為)

20190903NT61P8 圖8 Ascend 910 NoC拓撲結構。(資料來源:華為)

達芬奇與Arm架構區別

華為自研的達芬奇架構與處理器通用架構Arm有什麼區別?簡單地說,其實就是2D圖與3D圖的區別。

達芬奇架構依然基於Arm架構,是在Arm架構基礎之上研發的AI硬體處理單元,它不是替代Arm處理器,而是與之配合,為通用處理器添加AI加速器功能。華為的麒麟810晶片採用的是達芬奇NPU,也就是傳統的Arm核心+AI加速器的模式。當然,這個AI加速器是達芬奇NPU的核心,它把MAC按照不同的運算組成不同的方式,搭配標準的資料快取,進行AI運算時依照Cube 3D立方模式組織的MAC群支援相關運算。

雖然是基於Arm核心,但是達芬奇仍然是華為自行研發的架構,華為已經購買了ARMv8永久的架構授權,華為會持續在ARMv8架構基礎上進行研發,對該架構獨立完成升級工作,自研的達芬奇架構也會逐漸形成獨立的體系,支援自家的Ascend系列晶片,甚至授權給AI晶片設計公司以針對特定應用開發相應的晶片方案。

20190903NT61P9 圖9 Ascend 310、910與Kunpeng 920的尺寸對比。(資料來源:華為)

此外,華為基於Arm架構開發的鯤鵬920伺服器晶片已經在其泰山伺服器中投入商用,用於華為自己的資料中心和其他企業級資料中心。筆者認為,華為無意跟Arm、英特爾或Nvidia競爭去單獨銷售晶片,更多的是將其晶片作為客戶定制的系統方案的有機組成部分而銷售。

達芬奇與RISC-V架構

在中美貿易摩擦和科技冷戰的大背景下,RISC-V開放原始碼架構得到了中國從政府、大學、企業到投資機構的高度重視,儼然成了中國發展自主半導體產業的助力器。最近,阿里平頭哥和兆易創新等中國IC設計公司紛紛推出基於RISC-V的AI晶片或通用MCU處理器,更是加速了RISC-V在中國的發展態勢。雖然華為海思還沒有發佈基於RISC-V的晶片,但筆者相信他們一定是在研發中,如何權衡RISC-V、Arm及其自己的達芬奇架構以便系統地開發完整的AI加速器和處理器方案,這或許是華為海思的工程師們在思考的問題。

結語

華為基於Arm架構,根據AI戰略的需要而開發出獨特的達芬奇架構,這種既可滿足未來需求又相容當前主流標準的研發策略將助力華為在一個統一的架構下,推出一系列核心IP、晶片、AI加速卡、AI伺服器及集群,提供從IoT設備、可攜式行動終端、邊緣運算設備到雲端伺服器在內的完整解決方案,從而為其全場景全堆疊AI戰略奠定堅實的基礎。

本文為EE Times China原創文章