過去四年中,運算領域發生了令人驚歎的發展。以ARM為例,在已經出貨的1,000億顆基於ARM的晶片中,有500億顆是由ARM的合作夥伴在2013年到2017年間完成出貨的。「這個數字充份反映了整個產業目前對於更多運算的需求。」ARM副總裁暨運算產品事業部總經理Nandan Nayampally說,ARM的成功緣於良好的生態系統和自身架構的高拓展性,能夠覆蓋從感測器到伺服器的廣泛應用,他們將其稱之為全面運算(Total Computing)。

Nandan Nayampally預計其合作夥伴將在2021年完成下一個1,000億顆基於ARM的晶片出貨,在很大程度上這將歸功於人工智慧(AI)在人們日常生活中的廣泛應用。「未來,人工智慧將無處不在,資料處理能力不能完全依賴於雲端,設備本身也要具有人工智慧的運算能力,功耗還要更低。」為此,ARM在big.LITTLE技術基礎之上,推出了全新的DynamIQ技術。

20170405-ARM-1

與其將DynamIQ稱之為一種技術,倒不如將其稱之為「微架構」。ARM對DynamIQ給出的官方定義是:作為未來ARM Cortex-A系列處理器的基礎,DynamIQ代表了多核心處理設計產業的轉捩點,其靈活多樣性將重新定義更多類別設備的多核心體驗,覆蓋從端到雲的安全、通用平台。該技術未來將被廣泛應用於汽車、家庭以及各種互連設備中,這些設備所產生的、以「皆」位元組(ZB,1皆位元組大約等於1兆GB)為計算單位的資料,會在雲端或者設備端被用於機器學習,以實現更先進的人工智慧,從而帶來更自然、更直觀的用戶體驗。

2005年,ARM在業界推出了革新式的產品--多核心ARM11,第一次實現了在單一叢集中支援四個核心用於嵌入式系統;6年後,big.LITTLE技術問世,為主要運算設備的多核心特性帶來了革新。但它的弊端在於不能夠對單一運算叢集上的大小核心進行配置,例如它無法實現1+3或者1+7的SoC設計配置,這對異質運算和具有人工智慧的設備來說是非常不利的。而最新的DynamIQ微架構則突破了這一瓶頸,被視作big.LITTLE技術的一次重要演進。

根據ARM提供的相關資料顯示,第一代採用DynamIQ技術的Cortex-A系列處理器在最佳化應用後,將可實現比基於Cortex-A73的設備高50倍的人工智慧性能,並最多可提升10倍CPU與SoC上指定硬體加速器之間的反應速度。究其原因,是因為在新架構中,每個核心都可以有各自不同的性能特性,SoC設計者可以透過對每一個處理器進行獨立的頻率控制,高效地在不同任務間切換最合適的處理器。同時,全新設計的記憶體子系統也有助於實現了更快的資料讀取和全新的節能特性。

考慮到DynamIQ微架構允許在單個叢集中最多部署8個核心,Nayampally更看好其在企業級應用中的潛力。他解釋說,由於硬體尺寸和軟體執行緒的限制,行動應用方面應該不再需要超過8個核心以上的運算能力了,單一叢集已經足夠。但企業級應用對於記憶體容量、I/O輸送量和頻寬是有高要求的,而DynamIQ正好解決了這一問題。接下來,SoC設計人員完全可以利用Corelink和Cache Coherent Interconnect等技術形成3-8個叢集的多核心設計,充份釋放其強大的運算能力,從而為機器學習和人工智慧應用帶來更快的反應速度。

那麼,DynamIQ技術能不能協助ARM在伺服器晶片市場做得更好?「這是個好問題,但我們可能還得再等等。」Nayampally回應稱,目前的雲端伺服器通常採用多晶片架構,因此通用型處理器加專用AI加速器模組的組合,可能會是更佳的選擇,DynamIQ的優勢會更多體現在青睞單晶片系統設計的智慧型手機等設備中。當然,他也特別強調了安全,例如DynamIQ微架構除了能為ADAS解決方案帶來更快的回應速度外,也能同時增強安全性,確保合作夥伴能夠設計ASIL-D相容系統,即使在故障情況下仍可以快速恢復並能夠安全運行。

在回答媒體「一些專用的人工智慧晶片(SoC/ASIC)是否會對DynamIQ帶來挑戰?」這一問題時,Nayampally稱,人工智慧技術目前還在快速的演進發展中,包含了各種各樣的多元化演算法,場景應用也很多元化。DynamIQ更強調兩方面的價值:一是能夠實現通用處理器在AI性能方面的提升,二是能夠實現通用處理器和專用加速模組之間快速的回應和連接。所以,整個晶片系統本身針對AI的性能就能夠得到提升,這對那些體積受限的小設備而言是非常重要的。言外之意,ARM新架構與專用AI加速器模組的組合,可能是未來SoC設計比較好的選擇之一。

DynamIQ技術將在今年晚些時候正式推出,2018年將率先被用於智慧型手機、汽車以及其他嵌入式系統中。

為嵌入式系統設計客製化SoC有更簡單的方法