隨著Google、蘋果(Apple)、Facebook、百度(Baidu)與華為(Huawei)等大廠積極在手機與行動裝置上加入人工智慧(AI)或神經網路的支援,AI正迅速成為高階智慧型手機的標準配備,並進一步帶動市場對於嵌入式神經網路加速器硬體的需求。

神經網路加速器可在裝置端執行運算,取代傳統送至雲端的處理任務,從而為手機與行動裝置加速AI應用。著眼於這一市場前景,Imagination日前針對視覺與人工智慧領域發表PowerVR架構的2NX神經網路加速器(NNA),據稱可提供較DSP解決方案更高8倍的效能,讓行動、監控、汽車與消費系統SoC開發業者以非常低的功耗,在最小晶片面積達到神經網路的高效能運算。

Imagination PowerVR產品與技術行銷資深總監Chris Longstaff指出,神經網路目前廣泛應用於無人機、安全監控、自動駕駛、行動裝置與工業製造等市場,但由於當今的硬體效能而使得應用受限制。這一類的應用正不斷提升對於功耗、頻寬、性能、可靠度、安全與延遲的要求,促使與AI相關的處理任務開始從雲端轉向裝置端(邊緣)。

在邊緣運算時代,神經網路將在SoC中扮演關鍵處理的角色。Longstaff強調,「在不久的將來,神經網路加速器將會與CPU、GPU、視訊編解碼器(codec)一樣,在SoC中變得無所不在——硬體支援不可或缺。」

為什麼需要加速器硬體呢?Longstaff以無人機為例解釋,為了實現避免碰撞,以每小時150英哩飛行的無人機必須達到超低延遲與高頻寬,而這是無法經由雲端提供的。又如以手機搜尋/排序上千張照片或進行視訊分析時,利用高階GPU需花費60秒的時間並消耗約1%的電池,而如果使用Imagination最新的神經網路加速器硬體,只需要2秒鐘即可達到相同效能且功耗更低。

Imagination PowerVR架構的最新2NX NNA是針對神經網路推論而重頭打造的專用硬體,並不是以GPU或CPU為基礎,「這表示在整個關鍵的神經網路層都存在硬體引擎,而CPU部份則透過驅動程式執行,以及確保資料串流的最佳化。因此,它能實現最高每秒推論(inference/s)次數、最高每平方毫米推理指標的成本效益方案,並以最高每毫瓦推理指楆(inference/mW)實現最低功耗。」此外,2NX NNA因應未來的頻寬限制而實現最低頻寬,同時支援Android以及其他高階作業系統。

20170929_Imagination_NT11P1 人工智慧架構可分為離線「訓練」與線上「推論」兩部份

Longstaff將整個AI架構分為離線「訓練」與線上「推論」兩部份。目前的離線訓練一般都在伺服器進行,主要是以英特爾的CPU或AMD GPU為基礎。相形之下,「Imagination則著重於推理部份,並提供PowerVR NNA工具將機器學習架構(訓練)產出轉換至DNN API,再應用於2NX NNA硬體。」

PowerVR 2NX NNA支援邊緣裝置中SoC的高效率神經網路推理,可擴充架構使其可從小型、高能效核心擴充至強大的高效能應用。差異化關鍵在於彈性化的位元深度,支援從16至4位元的精確度,並能以最小功耗與頻寬實現最高效能。

Longstaff指出,PowerVR彈性化的精確度使其性能提高60%,頻寬降低54%,功耗也降低了69%,而精確度的影響還不到1%。「彈性化的精確度意味著2NX NNA所需的頻寬只有競爭方案的25%。」

相較於競爭方案必須在每一步驟都尋求外部記憶體的支援,Longstaff指出,「2NX NNA在單一過程中即可完成所有步驟,這同樣使其能以最小頻寬與功耗達到最高性能。」此外,它還可因應不同的需求而與CPU、GPU或多核心進行配置,並提供記憶體管理單元(MMU)選配以支援Android與高階OS系統。

20170929_Imagination_NT11P2 2NX NNA較最接近的競爭方案展現更高2倍的效能

PowerVR 2NX NNA是專為行動裝置和Android而設計的,Longstaff強調,「相較於僅採用GPU的競爭解決方案,小尺寸的PowerVR 2NX能與PowerVR系列最新9XE/9XM GPU完美搭配,利用最新一代GPU管理典型的視覺處理演算法,並卸載神經網路的處理負載到PowerVR 2NX NNA,同時在同樣的晶片面積佈局中提供了GPU+NNA的最高效能加速解決方案。」

20170929_Imagination_NT11P3 PowerVR 2NX NNA能完美搭配9XE/9XM GPU。PowerVR NNA和GPU的效能密度使其得以整合在同一晶片中,其所佔有的晶片面積和僅提供GPU的競爭方案面積相同,但效能更強大

9XE與9XM是Imagination針對嵌入式繪圖領域發佈的最新一代PowerVR系列GPU,瞄準成本敏感裝置的繪圖與運算功能。與前一代產品相較,新系列GPU使用新的MMU支援更大的位址範圍,並提供10位元YUV的標準支援,而不至於影響晶片面積;頻寬更降低25%,讓SoC供應商可在相同晶片面積實現顯著的效能提升。

9XE系列延續並擴展去年PowerVR 8XE 系列GPU在單位面積填充率(fillrate/mm2)的優勢,並擴展新的8畫素/時脈(8PPC)核心以及支援4K60 GUI應用,為DTV、機上盒(STB)、電視棒/配接器、汽車資訊娛樂系統與整合性電子裝置以及入門級行動和平板電腦等產品的GUI、HMI和遊戲等提供真實世界體驗。

9XM GPU則具備更高運算密度(GFLOPS/mm2),為高階遊戲機上盒、中階智慧型手機與平板電腦以及汽車資訊娛樂系統等裝置的運算與遊戲功能提供最佳繪圖核心,並可擴充至4K及其以上解析度。 20170929_Imagination_NT11P4 最新一代PowerVR系列9XE與9XM比前一代GPU的頻寬更低25%,讓SoC供應商可在相同晶片面積實現顯著的效能提升