用於終端AI加速的10大處理器

作者 : Sally Ward-Foxton,EE Times歐洲特派記者

AI和ML應用處理器不斷湧現,加速了幾乎所有神經網路的處理工作。無論是處理器巨擘還是產業新貴,都在盡力提供差異化產品——本文列出了目前市場上最具代表性的10款AI加速處理器。

人工智慧(AI)和機器學習(ML)應用的加速是一個相對較新的領域,各種各樣的處理器不斷湧現,加速了幾乎所有神經網路的處理工作。無論是處理器巨擘還是產業新貴,都在盡力提供差異化產品——或是針對不同的垂直市場、應用領域或功率預算,或是具有不同的價位。本文列出了目前市場上最具代表性的10款AI加速處理器。

應用處理器

英特爾Movidius Myriad X

Myriad X由愛爾蘭新創公司Movidius開發,該公司於2016年被英特爾收購。Myriad X是Movidius的第三代視覺處理單元,也是首款搭載專用神經網路運算引擎的處理器,可提供1TOPS的運算能力,專門用於深度神經網路(DNN)運算。神經網路運算引擎與高傳輸量智慧記憶體直接連接,避免了資料傳輸時的任何儲存瓶頸。Myriad X支持FP16和INT8運算,擁有一個核心群(包含16個專有SHAVE核心),以及升級擴展版的視覺加速器。

Myriad X可用於第二代英特爾神經運算棒(NCS2),NCS2實際上是外形跟隨身碟一樣的評估平台。它可以插入任何工作站,使AI和電腦視覺應用能夠快速啟動並在專用的Movidius硬體上運作。

恩智浦半導體i.MX 8M Plus

i.MX 8M Plus是一款異質應用處理器,採用芯原的專用神經網路加速器IP(Vivante VIP8000)。它為消費者及工業物聯網終端設備提供2.3TOPS的推理加速能力,足以完成多個物體的辨識、40,000個單詞的語音辨識,甚至還可以對醫學影像進行分類(MobileNet v1每秒對500個影像進行分類)。

圖1 恩智浦的i.MX 8M Plus是該公司首款搭載專用神經網路加速器的應用處理器,專為物聯網應用而設計。(圖片來源:恩智浦半導體)

除神經網路處理器以外,i.MX 8M Plus還搭載運作速度為2GHz的4核心Arm Cortex-A53子系統,以及Cortex-M7即時子系統。針對視覺應用,它提供兩個影像訊號處理器,可以支援兩個立體視覺高畫質相機或一個12MP相機。針對語音應用,它提供一個800MHz HiFi4音訊數位訊號處理器(DSP),可用於語音資料的預處理和後處理。

XMOS xcore.ai

xcore.ai用於實現人工智慧物聯網(AIoT)應用中的語音控制。它是一種交叉處理器,兼具應用處理器的性能,以及微控制器的低功耗與即時操作特性,用於語音訊號的機器學習推理。

圖2 XMOS的xcore.ai採用專有架構,專為語音應用中的AI處理而設計。(圖片來源:XMOS)

它採用XMOS專有的Xcore架構,包含的邏輯核心可用於I/O、DSP、控制功能或AI加速。每顆xcore.ai晶片上有16個這樣的核心,設計人員可以根據需要選擇為每個功能分配多少個核心。透過將不同功能映射到韌體中的邏輯核心,可以創建一個「虛擬SoC」,這完全是由軟體實現。XMOS還在Xcore中增加了向量管道功能,用於機器學習。

xcore.ai支援32位元、16位元、8位元和1位元(二進位)網路,可提供3,200MIPS、51.2GMACC和1,600MFLOPS的運算能力,同時擁有1MB嵌入式SRAM,以及一個低功耗DDR擴展介面。

車用SoC

德州儀器TDA4VM

TDA4VM是德州儀器(TI)首款搭載專用深度學習加速器的SoC,是應用於汽車先進駕駛輔助系統(ADAS)的Jacinto 7系列的一部分。該模組採用C7×DSP及內部開發的矩陣乘法加速器(MMA),運算能力高達8TOPS。

圖3 德州儀器的TDA4VM用於複雜的ADAS,使車輛能夠感知周圍環境。(圖片來源:德州儀器)

這款SoC可以處理來自一個8MP前置攝影機的視訊串流,或者處理來自4~6個3MP攝影機加上雷達、光達(LiDAR)和超音波感測器的組合資料。例如,在自動代客泊車系統中,其搭載的MMA可用於對這些輸入資料進行感測器融合。

TDA4VM專為5W~20W的ADAS應用而設計。該產品目前處於預生產階段,但已有可用的開發套件。

GPU

Nvidia Jetson Nano

Nvidia著名的Jetson Nano是一款外形小但功能強大的GPU模組,專門針對終端設備中的AI應用。該公司表示,與大多數Jetson系列產品(AGX Xavier和TX2)一樣,Nano模組上的GPU採用Maxwell架構,有128個核心,運算能力達到0.5TFLOPS,足以處理多個高解析度影像感測器的資料流程並執行多個神經網路,功耗僅為5W,該模組還搭載了4核心Arm Cortex-A57 CPU。

圖4 Nvidia的Jetson Nano模組搭載具有128個核心的強大GPU,適合邊緣AI應用。(圖片來源:Nvidia)

與Nvidia其他產品一樣,Jetson Nano也採用了Nvidia的神經網路加速庫CUDA X,價格便宜的Jetson Nano開發套件已經上市。

消費性輔助處理器

Kneron KL520

耐能(Kneron)是台灣旅美科學家在美國成立的一家新創公司,首款產品為KL520神經網路處理器,專用於智慧家居、安防系統和行動裝置等應用中的影像處理和人臉辨識。經過最佳化,它可以運作影像處理中常用的卷積神經網路(CNN)。

圖5 Kneron的KL520採用可重配架構和巧妙的壓縮技術,在行動裝置和消費類設備中完成影像處理。(圖片來源:Kneron)

KL520運算能力達到0.3TOPS,功耗僅為0.5W(相當於0.6TOPS/W)。該公司稱其晶片MAC效率超過90%,能夠實現精確的人臉辨識,晶片架構可重新配置,並針對不同的CNN模型量身定制。Kneron的輔助編譯器採用壓縮技術,能夠在有限的晶片資源內執行更大的模型,從而節省了功耗和成本。KL520現已上市,製造商AAEON的加速卡中(M2AI-2280-520)也使用了這款處理器。

Gyrfalcon Lightspeeur 5801

Gyrfalcon的Lightspeeur 5801是為消費性電子產品市場而設計,可提供2.8TOPS的運算能力,功耗為224mW(相當於12.6TOPS/W),延遲僅為4ms。Gyrfalcon採用了比其他架構更節能的「記憶體內處理器(processor-in-memory)」技術,並且可以在50MHz和200MHz之間改變時脈速度,從而相應地調節功耗。Lightspeeur 5801包含10MB記憶體,因此整個模型都可裝在晶片上。

Lightspeeur 5801是該公司生產的第四款晶片,已經用在LG的Q70中階智慧型手機中,用於相機效果的推理,5801 Plai Plug U盤開發套件現已上市。

超低功耗

Eta Compute ECM3532

ECM3532是Eta Compute的第一款產品,在物聯網電池供電或能量採集設備中用於AI加速。在影像處理和感測器融合等一直在執行的應用中,其功耗可低至100μW。

該晶片搭載兩款核心,Arm Cortex-M3微控制器核心和恩智浦半導體CoolFlux DSP。它採用專有的電壓和頻率調節技術,可以調節每個時脈週期,以充分利用兩個核心的每一瓦功率,兩個核心的任何一個都可以執行機器學習…

 

…完整閱讀請連結EDN Taiwan網站

 

發表評論