2020年:過渡到完全互連的未來

作者 : Gideon Intrater,Adesto Technologies技術長

2020年將是轉型的重要一年,許多可望改變人類生活的科技與產品都即將成為現實,並開始帶來影響。

2020年將是轉型的重要一年,許多可望改變人類生活的科技與產品都即將成為現實,並開始帶來影響。2020年,將看到5G技術的部署,這將為工業4.0、自駕車,邊緣人工智慧(edge AI),以及各種要求更高速度與頻寬的新產品和服務奠定基礎。

業界正持續開發各種創新的半導體解決方案,以實現完全互連的未來。其中一項重要創新是,使邊緣裝置的AI推論成為切實可行,且可擴展的商機。然而挑戰在於,AI推論需要強大的處理能力,且其功耗往往是邊緣裝置無法承擔的。矩陣乘法(matrix multiplication)是AI處理的核心,它的第一個層級是先從包含數百萬個運算元(即權重)的運算開始,並且隨著運算的進行,矩陣會變小。每次運算都需要重複多次的向量點積運算:從記憶體中讀取兩個運算元,把運算元相乘,並累加結果。整個過程會需要較高的功耗,因而也使成本增加。

20200108NT31P1
Gideon Intrater,Adesto Technologies技術長

今天,人們正利用各種方案來解決此問題。一種方式是,利用可從多家供應商取得的現成微控制器(MCU),在某些情況下,這是一項不錯的選擇。透過把權重儲存在快速的外部記憶體中,通常是8進位快閃記憶體,例如Adesto的EcoXiP非揮發性記憶體(NVM),因此能夠非常快速地取得它們。在此傳統的運算模型中,資料需透過單一的匯流排傳輸,而典型的解決方案最高可達到每瓦0.1TeraOp。但對於難度更高的推論演算法,則需要採用專用硬體。

的確,目前市場上已有多家供應商提供了許多不錯的SoC,其中有專用的AI加速硬體。結合先進製程節點,以及專用硬體,可使這些設計達到不錯的效率。但是,這樣的設計仍需要從外部記憶體取得權重,由於把權重帶進SoC的過程會消耗功率,此問題還是存在的。

展望未來,演算法的複雜性將持續成長,這將使邊緣裝置的AI推論硬體到達極限。為了解決這個問題,數位推論架構正在演進,現已超越了採用具專用推論引擎的MCU和SoC,朝利用深次微米製程和近記憶體(near-memory)處理等新架構發展。

透過把記憶體和AI硬體加速器整合在相同的晶粒上,近記憶體處理能以更低的功耗,實現更高的效能。目前,市場上已有商業化的解決方案,宣稱效能可達到每瓦9.6TeraOps。這是透過記憶體和執行單元之間的較高頻寬所實現,同時也因為不需要到晶片外部去取得權重。但是,權重的數量會受到矽晶元件中可建置的數量限制,因此效率和可擴展性無法完全兼顧。此外,為了限制功耗,需採用先進製程,但在先進製程節點中,具面積與功率效率的非揮發性記憶體單元並不存在,需採用昂貴的SRAM陣列。

進一步的創新是有必要的,透過記憶體內(in-memory)的類比處理(運算資源和記憶體位於同一位置),我們看到了未來AI邊緣推論引擎的光明前景。在此典範中,深度神經網路(DNN)矩陣成為非揮發性記憶體單元陣列,而矩陣的權重成為非揮發性記憶體單元的電導(conductance)。透過輸入電壓與非揮發性記憶體單元電導的類比相乘來完成乘法運算。這些運算在所有向量元素上所產生的電流,以類比方式相加,以產生MAC結果。由於不需要移動權重,因此該模型可以實現功率效率和可擴展性的絕佳組合。業界預估,此解決方案的小能可達到OI每瓦28TeraOps。

記憶體內類比處理當然會面臨挑戰,而且不會在2020年實現這項技術。但是,我們相信,今年業界將會在此領域取得進展。類比解決方案正在迎頭趕上,利用單一電晶體儲存和原地(in-place)運算,可免除昂貴的硬體乘法器。當我們邁向完全互連的未來時,結合類比和數位運算,可能是因應邊緣裝置AI推論挑戰的唯一方法。

本文同步刊登於EE Times Taiwan 2020年1月號雜誌

發表評論