隨著人工智慧(AI)功能從雲端轉移到邊緣,晶片製造商勢必將會找到可行的方法,在更小、更高效且更具成本效益的裝置中實現各種AI功能,例如神經網路處理和語音辨識等。

在資料中心執行繁重任務的大型昂貴AI加速器不太可能適用於邊緣裝置。為了滿足特定應用的尺寸、價格與功耗等要求,在邊緣裝置中實現AI的戰線正全面拉開中,包括CPU、GPU、FPGA、DSP以及甚至微控制器(MCU)等各種晶片方案競相登場。

在最近舉行的Linley處理器大會(Linley Processor Conference)上,益華電腦(Cadence Design Systems)和Flex Logix Technologies等公司分別發佈了專門針對邊緣AI的設計架構。兩種架構都專注於將AI功能導入邊緣節點裝置,而且重點在於滅少記憶體佔用空間。

Semico Research資深分析師Rich Wawrzyniak表示,「並非一切都得在雲端處理。 帶有AI功能的終端裝置將成為主流。」

根據Tirias Research首席分析師Jim McGregor指出,大多數將在近期上市的解決方案仍然可能是「以某種方式混合的解決方案,即在邊緣進行大部份處理,而在必要時才利用雲端,除非他們只是在聽候特定的單詞或聲音。」

Tirias Research的另一名分析師Kevin Krewell說:「我們確實看到了更多語音處理在邊緣完成的發展趨勢。將所有語音數據發送到雲端存在隱私問題。而在邊緣處理可以減少延遲響應。此外,邊緣處理能力也越來越強。」

McGregor表示,使用DSP是在邊緣進行處理的最有效方式。「然而,我們也看到Alexa智慧音箱使用了意法半導體(STMicroelectronics;ST)的STM32 MCU。」

Cadence Tensilica HiFi 5 DSP專注於實現語音辨識和基於神經網路的處理,而Flex Logix的NMAX架構則專為更複雜的神經推論而設計。兩家都聲稱其架構在成本、性能和功耗方面都比現有架構具有顯著優勢。

根據Wawrzyniak的說法,新的架構代表著IP供應商正逐漸提供專門用於AI的IP。他補充說,目前在AI中使用的大部份IP都是針對通用SoC類型的IP。「隨著應用變得更加專精,IP開發商將會推出更多專為AI實現最佳化的產品。」

NMAX神經推論引擎

Flex Logix是一家成立約四年的新創公司,以嵌入式FPGA聞名,宣稱其NMAX神經推論引擎可以在模組化、可擴展的架構中提供超過100兆次每秒操作(TOPS)的神經推論性能,而所需的DRAM頻寬只是競爭技術的一小部份。

Flex Logix執行長Geoff Tate表示,其互連技術能有效因應神經網路推論中的最大挑戰,即最小化資料移動和功耗。如同該公司的eFPGA,NMAX採用平鋪式(tile-based)途徑,可讓用戶根據需要擴展陣列。他說,NMAX tile可以按照所需的TOPS配置來排列,根據需要使用不同數量的SRAM,最高可達100TOPS峰值性能。

Flex Logic NMAX512 NMAX512平鋪架構(來源:Flex Logix)

這種架構還帶有分佈式晶片上SRAM,可根據需要進行重新配置,這是針對不同數據大小的優勢。它還具有互連功能,可以在每一階段的SRAM輸入組、MAC叢集和啟動至SRAM輸出組之間重新配置連接。

Tate還表示,NMAX即使在小量處理中也能迅速執行神經網路推論,這是Nvidia和Habana Labs的推論引擎難以做到的,因為每層加載需要很多時間。他補充說,小量處理對邊緣應用尤為重要,因為它需要盡量減少延遲。他還展示了NMAX在28、10和1等不同批量的處理資料,每秒可處理多達19,000個RESNET-50影像。

Tate向《EE Times》解釋,「通常情況下,現有架構在大量處理中具有良好的吞吐量,但在較小量處理中卻不太好,因為加載需要很長時間。」。

Flex Logic NMAX ResNet-50在小量處理中的性能比較(來源:Flex Logix)

Tate強調,Nvidia Tesla T4和Habana Goya等晶片需要的DRAM頻寬比NMAX更多。他說:「最根本的是,我們的價格還比其他方案更便宜10倍。他們需要8個DRAM來獲得這樣的吞吐量,而我們只用一個DRAM就夠了。」

NMAX仍處於開發階段,預計將於2019年下半年開始供貨。Flex Logix計劃在2019年春季Linley處理器大會上展示該技術的進展情況。

再看Cadence,其Tensilica HiFi 5是一種用於音頻和語音處理的DSP核心,專門針對遠場處理和基於AI的語音辨識處理進行了最佳化。該Cadence介紹,這是Tensilica DSP系列的第五代產品,也是業界廣泛授權的音訊、視訊和語音DSP,每年出貨量超過10億。據Cadence稱,相較於其上一代HiFi 4,HiFi 5具有更高兩倍的音訊處理能力和四倍的神經網路處理性能。

Cadence HiFi5 Tensilica HiFi 5架構(來源:Cadence)

HiFi 5並與HiFi系列其他產品的軟體相容,包括300多個HiFi最佳化的音訊和語音編解碼器,以及音訊增強軟體套件。Cadence還推出了一個新的工具庫,它可提供一系列最佳化的功能,特別適用於神經網路處理——尤其是語音,可以整合到普遍的機器學習架構中。

Cadence宣佈,位於德州奧斯汀(Austin, TX)的次閾值電晶體微控制器開發商Ambiq Micro是第一家獲得HiFi 5授權的客戶。

(參考原文:New Architectures Bringing AI to the Edge,by Dylan McGrath)