儘管有眾多人工智慧(AI)處理器競相搶市──每一種都自稱是「突破」──今日的AI社群仍被無數問題所困擾,包括能量、速度、AI硬體的尺寸與AI演算法,這些都尚未證實在強韌度以及性能方面有所改善。

在電腦視覺方面,如IBM Research的電腦視覺與多媒體研究經理Rogerio Feris所言,最大的挑戰在於如何「讓視覺分析更有效率」。要特別說明的是,AI仍在早期發展階段,需要全新的想法、長期性的眼光,以及學界與研究機構在研發上的更多投入。

IBM Research會在本週於鹽湖城(Salt Lake City)舉行的2018年度電腦視覺與圖形識別研討會(Conference on Computer Vision and Pattern Recognition,CVPR)上,發表兩篇關於AI軟體與硬體技術的論文;CVPR是由電腦視覺基金會(Computer Vision Foundation)以及IEEE電腦學會贊助,號稱是最具競爭力的電腦視覺技術研討會之一。

在AI硬體部分,IBM Research正在推廣一種立體視覺(stereo-vision)系統,是透過將以大腦啟發的棘波神經網路(spiking neural-network)技術應用於資料擷取(感測器)與資料處理所開發;該設計利用了IBM自家的TureNorth晶片──是一種非馮諾伊曼(non-von-Neumann)架構處理器──以及一對瑞士業者iniLabs開發的事件導向(event-driven)攝影機

20180621_IBM_NT02P1

IBM的TrueNorth架構
(來源:IBM)

在AI軟體部分,IBM Research的論文是關於「Blockdrop」,也就是被認為可降低深度殘差網路(deep residual networks)所需之總運算量的關鍵步驟。Feris解釋,以上兩篇論文是從兩個不同角度解決一個相同的問題──視覺分析效率。

Feris表示,當有人要過馬路,自動駕駛車輛會被預期要做出「即時推論」;雖然影像辨識準確度很重要,不過自駕車要花多少時間產生結論、識別出那是什麼東西,才是它在現實世界應用的終極試驗。

什麼是「Blockdrop」?

在2015年ImageNet大會上成為贏家的殘差網路,在電腦視覺技術社群掀起了一場風暴;該技術已經證明了它能提供優異的識別結果,因為能訓練神經網路中的數百甚至數千層。不過Feris指出:「將殘差網路需要的那些一體適用運算應用於所有成像,會太沒有效率;」他解釋,如果有一隻狗在白色背景前,會比在忙碌都市街景中更容易被識別。

為此IBM Research開發了BlockDrop,這是一種學習動態選擇殘差網路中哪些區塊(包括多個層)來執行推論任務的方法;Feris指出:「該方法的目標是妥善減少整體運算輛,同時不損失預測準確度。」

20180621_IBM_NT02P2

BlockDrop說明
(來源:IBM)

IBM聲稱,BlockDrop在測試中平均能將識別速度提升20%,有時甚至能加快36%,而且不犧牲殘差網路在ImagNet資料集中達到的準確度。Feris表示,IBM這項研究是在2017年夏天與美國德州大學(University of Texas)、馬里蘭大學(University of Maryland)合作展開,該公司將會把BlockDrop釋出給開放源碼社群。

立體視覺應用的神經形態技術

在硬體方面,IBM Research瞄準了一種利用棘波神經網路的立體視覺系統;該公司表示,目前產業界是使用兩個傳統(訊框)攝影機來產生立體視覺,但從未有人嘗試過神經形態技術。雖然以傳統攝影機提供立體影像並非不可能,不過會需要高畫質影像訊號處理,例如高動態範圍(HDR)成像、超高解析度處理以及自動校準等。

根據IBM研究員Alexander Andreopoulos在論文中的描述,其系統是利用兩個iniLabs開發的事件導向攝影機(又被稱為動態視覺感測器-DVSe),擷取畫面之後以IBM TrueNorth晶片叢集來提取快速移動物體之深度。

IBM的目標是大幅降低取得立體影像所需的功耗與延遲,在接收直播的棘波輸入(這已經大幅降低資料量)後,該系統是用IBM的神經形態硬體重建3D影像,透過估算來自兩個DVSe之影像的差異,以及藉由三角測量定位3D空間中的物體。

20180621_IBM_NT02P3

神經形態立體影像
(來源:IBM)

資料擷取與處理

有一家法國新創公司Prophesee是利用神經形態技術來擷取資料,並降低感測器所收集的資料量;該公司的感測器技術並非以訊框為基礎,而是以簡化並打造適合機器使用的資料為設計目標。Prophesee執行長先前接受EE Times採訪時表示,這能大幅減輕資料量負擔,應該也能因此讓車子能做出幾乎即時性的決策。

不過新一代的IBM立體視覺系統不只將類人腦技術用於資料擷取,也用在資料處理上,以重建立體影像;Andreopoulos表示,該系統還有一個最大的成就,是透過編程讓TrueNorth有效率地執行「棘波神經網路立體視覺必備的各種常見子程序(sub-routines)」。IBM補充指出,TrueNorth晶片的架構功耗比傳統系統低,這會有利於自動駕駛系統的設計。

同樣的,利用一對DVS攝影機(非訊框式)也能降低資料量與功耗,並提升速度、減少延遲,提供更好的動態範圍,而IBM表示這些都是即時系統設計的關鍵元素。在被問到新的TrueNorth系統還有那些優勢時,Andreopoulos表示,與採用傳統CPU/GPU處理器或FPGA的最先進系統相較,其每畫素視差圖功率(power per pixel disparity map)有兩百倍的改善。

利用以事件為基礎的輸入,饋入IBM系統的即時影像資料,是以9顆TrueNorth晶片進行處理,每秒能計算400張視差圖,延遲僅11毫秒(ms)。IBM在論文中指出,藉由特定的權衡(trade-offs),該系統能將速率進一步提升到每秒2,000張視差圖。

採用TrueNorth晶片的立體視覺系統何時可以商業化?Andreopoulos表示:「我們還不能透露時間點,只能說我們已經進行測試並且成功編程晶片有效處理視差圖,現階段是概念驗證。」

編譯:Judith Cheng

(參考原文: IBM Refines AI Efficiency in Visual Analysis,by Junko Yoshida)