在歷經一連串的風波後,曾經是百度(Baidu)人工智慧(AI)傑出工程師的吳韌(Ren Wu)黯然離去,不久後在美國加州成立了一家AI新創公司——NovuMind。在日前接受《EE Times》的專訪中,吳韌談到了這家新創公司的發展動向以及他希望達到的目標。

NovuMind大約在兩年前成立,目前共有50名員工,包括在美國的35名工程師,以及北京的15名員工。該公司目前正針對吳韌所描述的深度學習(deep learning)精簡途徑進行測試。

相較於Nvidia的繪圖處理器(GPU)或Cadence的數位訊號處理器(DSP)等通用的深度學習晶片設計,吳韌強調,NovuMind專注於開發「能更有效進行推理(interference)」的深度學習加速器晶片。

NovuMind所設計的AI晶片僅使用尺寸極小(3x3)的卷積濾波器。

值此人工智慧步伐進展神速至幾乎令人暈眩之際,NovuMind的這種設計途徑似乎與一般的直覺預期相左。事實上,許多關注於未來AI演算法的競爭對手們都將目光投向盡可能進行編程且強大的晶片上。

相形之下,NovuMind則專注於「惟有神經網路的核心不可能改變」的設計理念。吳韌解釋說,5x5卷積能透過堆疊2個3x3濾波器以低度運算來完成,而7x7則可堆疊3個。「那麼,為什麼還要大費周章地使用其他濾波器?」

針對邊緣裝置上深度學習加速器所採用的DSP和GPU等架構,最大的問題就是「處理器的利用率非常低」。吳韌說,NovuMind「採用獨特的張量(tensor)處理架構,解決了這個效率問題。」

他表示,NovuMind的設計想法是相當「主動積極的思考」方式,因為它專注於神經網路中的最小卷積組合;同時,新晶片的使命在於讓更具功率效率的AI嵌入任何應用中。

該公司專為原型設計的首款AI晶片預計將在今年聖誕節之前投片。而在明年2月以前,預計就可看到以低於5瓦(W)功耗執行每秒15兆次性能(TFLOPS)的晶片應用出現。此外,第二款晶片設計還將執行於1W以下,預計在2018年中發佈。

NovuMind的新晶片將支援Tensorflow、Caffe和Torch等原生的深度學習架構模型。

吳韌認為AI晶片的終極境界在於讓小型的連網「邊緣」裝置不僅能「看」也能「思考」(而且認知其所見所聞),而不至於佔用資料中心頻寬。他將此稱為智慧物聯網(I2oT)。

對於過去幾年來行事較低調的吳韌來說,NovuMind在某種程度上為他帶來了補償的機會。

就在兩年前,中國搜尋巨擘——百度在2015年ImageNet大規模視覺辨識挑戰賽(ILSVRC)中被取消資格後,吳韌也被百度開除了。但吳韌隨後否認了這起被稱作「機器學習首例作弊醜聞」。

不過,在接受《EE Times》的專訪時,吳韌並不願意再談到這起事件,而僅表示「我想我應該是被陷害了」。

在當今積極追逐邊緣裝置深度學習加速器的競賽中,NovuMind正大步向前邁進。2016年12月才剛獲得1,520萬的首輪資金,NovuMind如今即將展開第二輪募資行動。吳韌在電話專訪中解釋:「這就是為什麼我目前留在北京。」

20171017_NovuMind_NT31P1 吳韌,NovuMind創辦人執行長

3D Tensor運算

正如吳韌所說的,深度學習加速的關鍵在於使效率最大化,同時讓延遲減至最低,特別是針對邊緣裝置。當然,許多邊緣裝置還受到成本和電池壽命的限制。而無人機和自動駕駛車輛並不容許任何延遲,因為它們必須能毫無延遲地辨識突然出現的危險。

在此背景下,吳韌指出可用於邊緣裝置深度學習加速的現有解決方案有二:DSP——如CEVA和Tensillica;以及GPU——如Nvidia的TX系列。

他接著解釋說,DSP的設計用於數位濾波,使用1D乘積累加運算(MAC)來完成任務。GPU(和Tensor處理單元)運作的本質是2D通用矩陣乘法(GEMM)。

20171017_NovuMind_NT31P2 1D MAC、2D GEMM和3D Tensor運作的比較(來源:NovuMind)

然而,吳韌認為,DSP和GPU都無法有效地實現深度學習加速任務。他解釋說,深度學習網路模型運算中的最新技術是3D張量運算。「當然,如果您將3D張量作業轉換為1D MAC作業(針對DSP應用)或2D GEMM作業(針對GPU應用),則會失去許多效率。」

吳韌解釋說:「這就是為什麼即使GPU和DSP聲稱具有高峰值性能(~1-2TFLOPS),而當執行真正的深度學習網路推理時,其平均性能僅為即時應用峰值性能的20-30%。」

他說有很多的處理能量都浪費在記憶體存取。平均而言,運算資源的70-80%性能都處於空閒狀態,等待來自記憶體的資料。

NovuMind使用吳韌所謂的「獨特的張量處理架構」。NovuMind的晶片架構原生支援3D張量運算。他強調,這將有助於「大幅提高能量和晶片面積的效率。」據吳韌介紹,NovuMind的架構可達到實際應用峰值性能的75~90%。

記憶體階層結構

吳韌聲稱,NovuMind「基於3D張量運算」的設計,為其AI晶片帶來了巨大優勢。「由於它能直接在3D張量上進行處理,我們不必為了將卷積擴大到2D矩陣而介入中間步驟,因而能夠節省大量的記憶體頻寬與記憶體存取能量。」

但工程技術脫離不了權衡折衷。為了追求嵌入式AI所需的功率效率,NovuMind的AI晶片又必須放棄什麼呢?

吳韌表示:「NovuMind的晶片僅支援一些有限的拓撲結構,如VGG、RESNET網路所定義的層級,以及另一小部份我們認為重要且相關的其他網路層。」

他指出:「我們的晶片將非常有效地運算所支援的這些網路層。它當然也可以處理其他分層,但並不是最佳化的。」

至於其缺點呢?吳韌認為NovuMind的AI晶片的「通用性不足」。如果網路中包含許多無法支援的分層,「其性能就不再具有競爭力」。但吳韌仍有信心「透過NovuMind強大的AI團隊和內部訓練能力,很快地將會涵蓋與現實世界應用相關的所有重要分層。」

不過,NuvoMind為什麼深信3x3濾波器是必經之路?吳韌說:「這必須歸功於原始的VGG論及其作者。」

VGG是指英國牛津大學(Oxford University)工程科學系視覺幾何小組(Visual Geometry Group;VGG)。VGG研究人員在2015年撰寫了題為「大規模影像辨識的超深度卷積網路」(Very Deep Convolutional Networks for Large-Scale Image Recognition)的論文。

VGG的這篇論文說服了吳韌將其晶片架構映射到硬體。他隨即驚訝地發現這是多麼友善硬體的途徑。「演算法設計者能夠提出如此優越且友善硬體的設計,這是極其罕見的情況之一。」他認為,我們目前看到其他實際有用的網路拓撲都是以VGG的成果為基礎的。

吳韌並補充說:「由於3x3卷積是一個重要的組成部份,我們的設計當然將會盡可能地確保使其具有最高效率。」

延遲比較

吳韌表示,相較於DSP和GPU,NovuMind的架構在延遲方面表現出色。

他觀察到,「DSP是專為串流資料處理而設計的,延遲表現不錯。」另一方面,「GPU通常需要大量作業,因而延遲較差——在8-64批次大小時約延遲50-300毫秒(ms),」使其難以滿足即時的需求。

他解釋說,NovuMind架構也使用了串流模式的資料處理(延遲< 3ms)。「我們可以想像,當一輛自動駕駛車以每小時65英哩(mph)的速度行駛而必須立刻煞車時,NovuMind架構比GPU更具有轉化4.5-30英呎距離的延遲優勢。」他誇耀地說,「這將會對自動駕駛車帶來重大影響。」

20171017_NovuMind_NT31P3

開發藍圖

NovuMind的首款晶片將採用28nm製程技術,並由代工廠生產。據吳韌介紹,第二款晶片將會採用16nm製程,預計在2018年中期投片。

吳韌說首款晶片是為了原型設計而生產的,但已可用於幾種應用場景。其一是結合NovuMind晶片的USB運算棒,可用於使連網裝置(如連網相機)成為AI驅動的系統。其次,該AI晶片由於具備15TFLOPS的效能,因而可用於「自動駕駛車」。第三種應用則是將AI晶片用於進行雲端加速。

根據吳韌觀察,資料中心所使用的GPU對於機架空間造成了限制。來自GPU的更高功耗(導致額外的熱)更是「罪魁禍首」。雖然NovuMind的AI晶片是專為邊緣裝置而設計的,但將它放在伺服器內部的PCI板時,其微型的封裝能夠有效地執行單一應用程式,例如必須在資料中心處理的語音辨識應用。

那麼,什麼樣的AI應用程式最適合採用NovuMind的AI晶片?NovuMind認為其AI晶片可在像自動駕駛中作為搜尋路徑的理想應用嗎?

吳韌的答案是否定的。他解釋說,當今自動駕駛車的密集運算單元「複雜度遠超過任何人的想像」。事實上,他預期自動駕駛車中將會有多個AI晶片預先處理資料,並將資料饋送至可作出明智決定的中央單元。他解釋說,NovuMind的AI晶片將會是自動駕駛車內的眾多AI晶片之一。

吳韌說該公司的AI晶片至今可執行「城市/國家級、多字串、多目標的人臉辨識」等應用。例如,憑藉著該晶片支援並處理128個高解析度(HD)視訊串流的能力,可讓系統從十萬支連網攝影機中辨識數百萬的目標人群。更重要的是,他強調,「我們可以在邊緣裝置實現這一點,而無需連網攝影機要求的大量頻寬、儲存空間與設置。」

為感測器添加直覺能力

至於深度學習的未來,吳韌說,「掌握大數據和巨大的運算能力,讓我們能夠訓練神經網路完成許多複雜的任務。」這也正是AI社群目前的目標所在。

但他解釋,NovuMind希望能夠為感測器增添「直覺」。就像人類和動物都具有五種感官一樣,機器也應該能夠具備一定的「本能」,協助他們迅速做出反應。

而至於機器的一般智力、推理和長期記憶,「我們還有很長的路要走。」

編譯:Susan Hong

(參考原文:x-Baidu Scientist Blazes AI Shortcut,by Junko Yoshida)