電腦視覺領域準備迎接劇烈變革

作者 : Sally Ward-Foxton,EE Times歐洲特派記者

意識到沒有必要精確複製神經元,再加上DVS攝影機的開發,是今日神經形態視覺系統背後的驅動力。不過現在雖然已經有系統問世,在我們擁有可供商用、完全像是人類的電腦視覺技術之前,還有很長的路要走。

電腦視覺是否會再次自我重塑?美國匹茲堡大學(University of Pittsburgh)眼科教授,同時兼任卡內基美隆大學機器人研究所(CMU Robotics Institute)教授的Ryad Benosman認為將會如此。

身為事件導向(event-based)視覺技術創始人之一,Benosman預期神經形態(neuromorphic)視覺──即事件導向攝影機,會是電腦視覺的下一個發展方向。「電腦視覺已經被重塑了很多、很多次;」他表示:「我至少已經看過該技術重塑兩次,從無到有,從零開始。」

Ryad Benosman (圖片來源:匹茲堡大學)

Ryad Benosman (來源:匹茲堡大學)

Benosman指出,在1990年代,電腦視覺從帶有一點攝影測量法(photogrammetry)的影像處理,轉變為以幾何學(geometry)為基礎的方法;然後今日則是快速轉向機器學習。儘管發生了這些變化,現代電腦視覺技術主要仍以影像感測器為基礎——即產生出類似於人眼所見影像的照相機/攝影機(camera)。

根據Benosman的說法,在影像感測技術典範不再有效之前,它會阻礙其他替代技術的創新;然而其效力因為GPU等高性能處理器的發展而延長,也延遲了尋求替代解決方案的需要。「我們為什麼讓影像(image)成為電腦視覺標的?這是在一開始就很難回答的問題,」他表示:「我們沒有理由使用影像,只是因為歷史性的推動力;甚至在相機/攝影機發明之前,影像就擁有那樣的動力。」

電腦視覺不該是攝影機?

自從針孔相機(pinhole camera)在西元前五世紀問世以來,拍攝影像的相機/攝影機就一直存在。1500年代,藝術家們打造出一個房間大小的裝置,好在畫布上追蹤一個人、或者室外風景的影像。多年之後,那些紀錄影像的畫布被替換為底片,而像是數位攝影(digital photography)等創新技術,最終使得攝影機很輕易成為現代電腦視覺技術的基礎。

然而Benosman認為,以攝影機為基礎的電腦視覺技術效率極低。他以一個中世紀城堡的防禦系統為比喻:圍繞著城牆部署一圈衛兵,從四面八方監看是否有敵人接近,並叫一個鼓手穩定地擊鼓,每打出一個鼓點就讓所有衛兵大聲喊出他們所看到的;在所有的呼喊聲中,有多容易能聽到其中一個衛兵在遠方的森林邊緣發現敵人?

在21世紀,鼓聲就是電子時脈訊號,衛兵則是畫素(pixel)——有大量資料被創造出來,並且必須在每個時脈週期被檢驗,這意味著存在大量冗餘資訊和需要大量不必要的運算。

法國新創公司Prophesee和Sony合作開發的DVS感測器評估套件;Benosman是Prophesee的共同創辦人。 (圖片來源:Prophesee)

法國新創公司Prophesee和Sony合作開發的DVS感測器評估套件;Benosman是Prophesee的共同創辦人。 (來源:Prophesee)

「人們正在消耗如此大的能量,用一整個城堡的運算能力來保護自己;」Benosman形容,如果偵測到一個有趣的事件,也就是敵人,「你必須繞一大圈收集無用的資訊,到處都有人在呼喊,所以要有很大的頻寬…你可以想像有一座複雜的城堡,所有衛兵的聲音都必須被聽到。」

進入到神經形態視覺時代,該技術的基本想法是受到生物系統運作方式的啟發,即偵測周遭場景動態的變化,而不是持續分析整個場景。在前面的城堡比喻中,這意味著讓衛兵保持安靜,直到看見讓他們感興趣的東西,然後喊出他們的位置以發出警報──在電子版本中,這代表讓個別畫素決定它們是否看到關係重大的東西。

「畫素可以自行決定它們應該發送什麼資訊,而不是擷取系統性資訊來尋找有意義的資訊-特徵(feature),」他說:「這就是與眾不同之處。」相較於與固定頻率的系統性資訊擷取,這種事件導向方法可以大幅節省電力並降低延遲。

「你想要一些更具適應性的東西,這就是事件導向視覺的相對性變化可以提供的,適應性的資訊擷取頻率;」Benosman表示:「當你觀察振幅變化(amplitude change),如果某個東西動得很快,就會得到很多樣本;而如果有的東西沒有改變,得到的樣本幾乎為零。所以你是根據場景動態來調整資訊擷取頻率,這就是該技術帶來的好處,以及為什麼它是好設計。」

Benosman是在2000年進入神經形態視覺領域,深信先進的電腦視覺技術可能永遠無法發揮作用,因為使用影像不是正確的方法。他指出:「最大的轉變是說我們可以在沒有灰階、沒有影像的情況下實現視覺,這在2000年底那時候被視為異端邪說——完全是在胡說八道。」

而因為Benosman所提出的技術——也就是今日事件導向感測的基礎——是如此不同,導致他將論文投稿至當時最重要的IEEE電腦視覺期刊,還沒經過審查就被拒絕了。實際上,直到2008年動態視覺感測器(DVS)的開發,才讓該技術開始取得動力。

 

一些Prophesee的客戶應用,展現攝影機和DVS感測器輸出的差異。

(來源:Prophesee)

神經科學的啟發

神經形態技術是受到生物系統啟發,包括終極電腦──即人腦,以及其運算元件──即神經元(neurons)。但問題是,沒有人完全理解神經元是如何運作的,雖然我們知道神經元會對被稱為棘波(spikes)的饋入電子訊號起作用,但直到最近,研究人員對神經元的特徵描述仍相對草率,認為只有棘波數量重要;這種假設持續了幾十年,不過近期研究結果證明,棘波出現的時機絕對關鍵,人腦的架構會在這些棘波中產生延遲,以進行資訊編碼。

今日的棘波神經網路(spiking neural network)就是模擬人腦中的棘波訊號,是真實事物的簡化版本——通常是棘波的二進位表示。Benosman解釋:「當我收到一個1,我就醒來,我運算,我睡覺;」而現實世界要複雜得多,當棘波到來時,神經元開始對隨著時間變化對棘波值計算積分;神經元也會漏電(leakage),這意味著其結果是動態的。

人腦大約有50種不同類型的神經元,伴隨著50種不同的積分組合;今日的電子版本缺少積分的動態途徑、神經元之間的連結,還有不同的權重與延遲。「問題在於要打造出有效的產品,你無法模仿所有的複雜性,因為我們不了解它;」他表示:「如果我們有完善的人腦理論,我們可望解決這個問題——可惜我們就是知道的不夠多。」

Bensoman目前主持了一個獨特的實驗室,致力於了解大腦皮質運算背後的數學,目標是打造新的數學模型,並將其複製為矽元件;他的研究包括直接監測來自真實視網膜的棘波。不過就目前來看,他反對嘗試如實複製生物神經元,並將之形容為一種過時的方法。

「以矽元件來複製神經元的想法之所以出現,是因為人們看著電晶體也看到了一個看起來像真正神經元的機制,所以在一開始在背後有這樣的一些想法;」他表示:「我們沒有細胞,我們有矽元件,你需要適應你的運算基板,而不是反過來…如果我知道我要算什麼而且我有晶片,我可以最佳化這個方程式,並且以最低的成本、最低的功耗與最低的延遲來執行。」

處理能力

意識到沒有必要精確複製神經元,再加上DVS攝影機的開發,是今日神經形態視覺系統背後的驅動力。不過現在雖然已經有系統問世,在我們擁有可供商用、完全像是人類的電腦視覺技術之前,還有很長的路要走。

初期版本的DVS攝影機具備「粗大」的畫素,是因為該光電二極體本身周遭的零件,顯著地降低了填充因數(fill factor)。雖然對開發這類攝影機的投資加速了該技術的進展,但Benosman也明確表示,今日的事件導向攝影機只是對早在2000年就開發的原始實驗裝置之改良版。

由Sony、Samsung與Omnivision開發的尖端DVS攝影機,擁有微小的畫素,融合了3D堆疊等先進技術並降低了雜訊。Benosman擔心的是,今日被使用的感測器類型能否成功地擴大規模;「問題在於一旦增加畫素數量,就可以取得大量資料,因為運作的速度仍然非常快,仍然可以即時處理。但是你會從太多的畫素中得到太多的相對變化,這現在讓所有人都想死,因為他們看到其潛力所在,卻沒有適當的處理器來支援。」

通用型神經形態處理器遠遠落後於它們的DVS攝影機同伴,一些大廠的開發工作──如IBM的Truenorth以及Intel的Loihi──仍在進行中。Benosman表示,適當的處理器搭配適當的感測器,就會是無敵的組合;「現在的DVS感測器速度極快,佔用頻寬超低,且支援高動態範圍,因此能看室內、也能看室外;這是未來趨勢…它會起飛嗎?絕對會!」

他的結論是:「誰能可以開發出適當處理器並提供完整的堆疊,誰就贏了;因為那樣的組合將會是天下無敵。」

 

本文同步刊登於《電子工程專輯》雜誌2022年6月號

責編:Judith Cheng

(參考原文:A Shift in Computer Vision is Coming,By Sally Ward-Foxton)

 

加入我們官方帳號LINE@,最新消息一手掌握!

發表評論