AI晶片新秀Perceive:我們重塑了神經網路數學運算

作者 : Sally Ward-Foxton,EE Times歐洲特派記者

Perceive團隊有41名成員,與Xperi內部為該晶片開發應用的團隊規模差不多。該公司創始執行長Steve Teig身兼Xperi的技術長;他過去曾是一家3D可程式化邏輯元件新創公司Tabula的創辦人暨技術長,但已在5年前結束營業。更早之前,Teig也曾擔任EDA供應商Cadence的技術長。

美國矽谷新創公司Perceive宣稱他們「重塑」(reinvented)了神經網路的數學,開發出一種互補型(complementary)邊緣AI晶片,並已經開始出樣。這款晶片並沒有使用常見的乘積累加運算單元大型陣列,該公司表示,其運算性能相當於4 TOPS,功耗表現可達55 TOPS/W;在低於20mW的功耗下,可以達到資料中心等級的AI推論性能(以30fps執行YOLOv3模型)。

這家總部位於加州San Jose的公司先前一直處於超級隱身模式,是從旗下擁有DTS等消費性電子技術品牌的Xperi集團獨立出來的全資子公司,在兩年前(2018)正式成立。Perceive團隊有41名成員,與Xperi內部為該晶片開發應用的團隊規模差不多。該公司創始執行長Steve Teig身兼Xperi的技術長;他過去曾是一家3D可程式化邏輯元件新創公司Tabula的創辦人暨技術長,但已在5年前結束營業。更早之前,Teig也曾擔任EDA供應商Cadence的技術長。

Teig解釋,他們最初的想法是將Xperi的經典影音處理技術與機器學習相結合;Xperi擁有DTS、IMAX Enhanced和HD Radio等技術品牌,產品陣容包括廣泛應用於數位相機消除紅眼、防手震等功能的影像處理軟體,以及用於藍光光碟機的音訊處理軟體等等。

Steve Teig,Perceive創辦人暨執行長

「我們從一張白紙開始,用資訊理論來思考:神經網路到底做了什麼樣的運算?是否有一種不同的方式來實現這種運算,以改變邊緣運算能做的事情?」 Teig表示:「經過幾年的努力,我們找到了答案…然後決定我們應該設計一款晶片來體現那些想法。」

於是Teig向Xperi董事會提出成立一家新公司的想法,要開發一種能在功率預算僅20mW的邊緣裝置上進行有意義的AI推論。最終成果是,這款名為Ergo的7x7mm晶片可以在沒有外部RAM的情況下,提供4TOPS的運算性能(Teig解釋,實際上其性能相當於4TOPS的GPU)。Ergo支援多種類型的神經網路,包括卷積神經網路(CNN)和遞迴神經網路(RNN),這與市場上針對CNN量身打造的許多解決方案形成了鮮明對比。Ergo甚至可以同時執行多個異質網路。

「唯一限制我們可以執行多少個神經網路的因素,是所需的記憶體總量;」Teig表示,Perceive已經展示了同時執行YOLOv3或M2Det──擁有6,000~7,000萬個參數──加上具有數百萬個參數的ResNet 28,以及再加上執行語音和音訊處理的LSTM或RNN。在具體應用中,這可能相當於同時進行影像和音訊推論。

Perceive還聲稱,Ergo晶片具有55TOPS/W的超高能效;這個數字比一些競爭對手所聲稱的能效高出一個等級。Perceive的數據顯示,該晶片在以30fps速率執行YOLOv3 (這是一個具有6,400萬個參數的大型神經網路模型)時,功耗僅20mW。

 

Perceive聲稱其Ergo晶片的能效高達55TOPS/W,以30fps速率執行YOLOv3模型的功耗僅20mW

(圖片來源:Perceive

 

這種省電效能源自於採用了某些積極的電源閘控和時脈閘控技術,這些技術充分利用了神經網路處理的確定性(deterministic)屬性──與其他類型的程式碼不同,它沒有分支(branch),因此在編譯時,時序是已知的,這讓Perceive能精確掌握需要開啟什麼、以及何時開啟。

「在電池供電的情況下,該晶片可以真正斷電──零毫瓦──而還有微瓦級運動感測器或類比麥克風等元件可用來偵測系統可能感興趣的東西;」Teig表示:「我們可以從斷電狀態把系統喚醒,馬上載入一個龐大的資料中心等級神經網路,並且在大約50毫秒內開始執行,包括解密碼。所以我們只大概佔用約兩個影格的容量。」

而且請注意,硬體設計只是Perceive解決方案的一部分。「我們以一種不同的方法來呈現所進行的運算本身,以及隨之而來的數學運算;」Teig指出:「我們也用一種新方式來呈現網路本身,這才是我們的優勢所在。」

資訊理論

Perceive以資訊理論(information theory,包含可用來區隔訊號與雜訊之數學方法的一個科學分支)為出發點,並使用其概念來研究從雜訊中提取訊號所需的運算量。Teig以一個物件偵測網路(object detection network)作為說明案例。

「你將數百萬個像素交給神經網路,只是想知道某張照片裡面是否有一隻狗,圖片中除了狗(訊號)之外的東西都是雜訊;」Teig解釋:「資訊理論可以把這樣的任務量化,也就是你需要了解多少才能辨別圖片中有一隻狗,這是實際上可以透過數學運算來精確得知的。」

正如Teig所描述的,主流神經網路能夠根據所看到大量狗狗圖片來歸納,因為它們至少可以發現雜訊中的一些訊號,但這是透過經驗法則,而非嚴格的數學方法。這意味著訊號會帶著雜訊,使得主流神經網路變得非常龐大,並使它們容易因為對抗樣本(adversarial examples)和其他手段而「上當」。

「你越能用數學方法來判斷哪些需要保留、哪些只是雜訊時,就越能做好歸納工作,其他方面需要的運算開銷(overhead)也就越少;」 Teig表示:「我可以斷言,就算是當前的主流神經網路,也是從雜訊中提取訊號,並沒有以更嚴謹的方式來執行任務,因此承載了額外負擔。」

這種資訊理論觀點是Perceive機器學習策略的基礎,代表一種新的神經網路呈現方式。Teig補充:「實際上,這是從資訊理論觀點思考如何進行機器學習,以及一款體現相關想法的晶片之完美結合。」

晶片架構

以Teig曾擔任Tabula技術長的背景,你可能會以為Perceive的硬體方案會以可程式化邏輯元件為基礎,但情況並非如此。

「我有十年的時間一直在思考可程式化邏輯技術,受到的影響很大,特別是關於如何打造豐富的互連架構,以實現高性能、高度平行化的運算;因為FPGA上很多運算都是大規模平行的,而且其運算與記憶體之間的互動也非常密集。」Teig表示:「這無疑影響了我在Perceive的工作,但是我們的方案並不是可程式化邏輯,只是受到其思維方式的影響,架構本身是圍繞神經網路的。」

Perceive的神經網路結構是可擴展的,第一代Ergo晶片具有四個運算叢集,每個叢集都有自己的記憶體。儘管相關晶片細節仍然保密,Teig透露這些叢集與其他AI加速器存在很大差異;其他AI加速器通常使用乘積累加運算單元(MAC)陣列來計算向量和矩陣的點積(dot products)。

「我們的方法不一樣,」Teig強調:「我們沒有採用MAC陣列,這因此讓我們的能效表現達到市面上同類產品的20至100倍;其他人都在做同樣的事,我們卻沒有。我們以全新的方法演繹神經網路,這讓我們能夠實現如此高的效率。再加上能找到這種網路呈現方法的機器學習技術,訓練網路、使其與晶片想要看到的一致。」

影像與音訊

Ergo能支援雙攝影機,包括一個扮演預處理器角色的影像處理單元,用以處理魚眼鏡頭、伽瑪校正(gamma correction)、白平衡和影像裁剪等任務。

「這些不是什麼花俏的功能,不過以硬體實現預處理顯然很有用,我們就用硬體做了;」Teig表示:「而且我們也有音訊等化器,例如能以多個立體聲麥克風實現波束成形。」此外Ergo晶片還配備一個具備DSP功能區塊的新思(Synopsys) ARC微處理器核心,也能用於預處理;另外還有一個同樣來自Synopsys的安全IP區塊。

Teig補充:「我們還做了一件事,就是絕對將所有內容加密,好在物聯網(IoT)應用案例中維持一定程度的安全性;我們將網路加密,將微處理器上執行的程式碼加密,也把介面加密,所有東西都加密。」

該晶片還為影音以外的感測器提供了恰當的I / O,並支援外接快閃記憶體和/或微處理器,可進行無線升級,用以更新晶片上載入的神經網路,或根據需要載入不同的網路。Ergo現可提供樣品與開發板,預計在2020年第二季量產。

本文同步刊登於《電子工程專輯》雜誌2020年5月號

責編:Judith Cheng

(參考原文: Startup Reinvents Neural Network Maths, Launches 20mW Edge AI Chip,By George Leopold)

發表評論