走過70年 機器視覺發展已到哪個階段?

作者 : 黃燁鋒,國際電子商情(ESMC)

電腦視覺就是讓電腦或機器理解並解釋影像畫面、視覺資料,某種程度替代人眼的工作。其早期實驗可追溯到1950年,1970年有了初步的機器視覺商業應用,現在發展階段如何?

談到電腦視覺(computer vision),作為現在相當夯的一門學科,離日常生活其實非常近。比如人臉辨識、攝影機拍路邊的指示牌就能直接翻譯成本國文字,或者可以選中、複製圖片中的文字資訊,這些都可認為是電腦視覺/機器視覺(machine vision)的典型應用。

電腦視覺早期實驗可以追溯到1950年;1970年時就有了區分手寫和書面文字的機器視覺商業應用。簡單地說,電腦視覺就是讓電腦或機器,理解並解釋影像畫面、視覺資料,某種程度替代人眼來執行觀察、辨識、定位、檢查、測量、決策等工作。機器視覺系統能夠自動擷取、分析視覺影像,提供資訊並控制機器或工作流程。

其應用範圍當然不止於拍照的人臉辨識,例如英飛凌的工廠就應用機器視覺來檢查某些工序之下,半導體產品的良率問題——相比人工檢查要高效不少; EDA與晶圓代工廠也基於機器視覺來發現晶片製造的缺陷……之前工業4.0這個詞流行起來時,就可了解機器視覺在實現工業自動化的過程裡扮演十分重要的角色。

如果簡單地將電腦視覺的工作流程切分成3大塊,包括影像捕捉、影像處理、影像分析與理解。基於此。雖說就產業鏈的角度,其中還有大量其他市場參與角色,比如上游的光源、鏡頭,中游的系統整合商,以及硬體之外的軟體、演算法供應商等等組成部分;不過期望本文能夠簡單勾勒出當前機器視覺市場的發展潛力,聊聊這個已經有70多年發展歷史的領域,現在怎麼樣了。

各種語境下探討機器視覺

首先明確一下機器視覺與電腦視覺這兩個詞究竟在說什麼。針對這兩個詞的定義和區別,各種不同的資料提出的解釋都存在差別。艾媒諮詢(iiMedia Research)先前有報告提出,機器視覺是為電腦視覺技術的工程化,「電腦視覺為機器視覺提供影像和景物分析的理論和演算法基礎,機器視覺為電腦視覺的實現提供感測器模型、系統構造和實現手段。」

這話說得似乎有一定道理,聽起來是不同語境下不同維度的提法。從維基百科等資料來看,「機器視覺」這個說法更偏向於「電腦視覺」在工業領域的應用。銀牛微電子聯合創始人兼副總裁何火高提到:「機器視覺技術賦予工業設備『看』的能力,機器視覺是電腦視覺技術一個非常重要的應用領域,電腦視覺是機器視覺技術的重要組成部分。」

Imagination Technologies產品總監Rob Fisher表示:「機器視覺可認為是電腦視覺的一個子集,電腦視覺包含更廣範圍的應用。」該公司產品總監Gilberto Rodriguez則說:「電腦視覺和機器視覺的概念受到機器學習的影響,在發生迅速變化。」

Prophesee多名專家提到機器視覺與電腦視覺的界限模糊,「在同一領域裡,我們經常可以看到它們被互換使用。在我們看來,電腦視覺屬於更廣泛的視覺技術領域,而機器視覺則是電腦視覺的一個子集。更具體來說,我們可以將機器視覺視為一組任務導向型的視覺技能,應用於一些特定的應用(物體的存在檢測、品質控制、尺寸檢測、自動檢查、通過/失敗決策…)。而電腦視覺則是一個跨學科的領域,在技術層面包含了最先進的視覺感知和運算。」

本文將不再特意區分電腦視覺與機器視覺兩個詞,討論範圍只限定於「機器視覺」的含義。如很多產業報告和本文不將汽車ADAS算作機器視覺範疇,即便它應用了諸多電腦視覺技術;但在某些文獻裡,這兩個詞的確可以互換。

其次要闡明的一個問題是,電腦視覺與AI是什麼樣的關係。畢竟現在我們經常看到這兩個詞同時出現。以及瞭解了兩者的關係,也就更能搞清楚電腦視覺的發展前景。在查資料時,令人驚訝的是,幾乎所有專家都提到,電腦視覺就是將AI應用於視覺世界,甚至說電腦視覺是AI的一個子集。依照前期認知,電腦視覺的確有部分應用神經網路技術的方案,但這不是電腦視覺的全部。

後來發現,普羅大眾對於「AI」的定義更加寬泛,它泛指對於人類行為方式或其他人類特性、智慧進行模仿。那麼機器視覺本來就是在特定領域對人眼和理解做模擬,自然可將其歸屬於AI。不過實際上,現在常說的AI並不會有這麼寬泛的定義。

Rodriguez說:「電腦視覺原本用於描述由人類編寫、在一般或專用運算硬體中執行的演算法。隨著機器學習性能提升,以及高效異質架構的存在,現在可以透過訓練(AI training)來獲得演算法,不再需要由人去寫程式碼。這改變了我們對於電腦視覺概念的認識。」他特別強調,「隨著AI和機器視覺技術更多的應用,傳統電腦視覺技術的採用正在變少。」這裡的AI的含義實際上是窄化了。

2012年在ImageNet影像辨識大賽裡,AlexNet卷積神經網路(CNN)脫穎而出,還基於GPU加速,這是對AI的革新,且AlexNet當時也被認為是電腦視覺領域,影響最為深遠的技術創新。那麼AI的概念,在此處就已經窄化為深度學習(也是很多人對AI的狹義定義)。而電腦視覺對於深度學習的應用,才是這兩年電腦視覺技術發展的重大趨勢。在這個語境裡,就不能再說電腦視覺是AI的子集了;而應該說AI在推動電腦視覺技術的發展。

AI火箭般的推力

AlexNet應該是AI推動機器視覺技術發展的一個代表;到當代ResNet殘差神經網路每每成為聊AI,以及AI晶片公司發佈產品時必提及的常客。這其實就說明當代電腦視覺的發展,是被AI推著走的。就像Rodriguez所言,傳統電腦視覺技術的分量在顯著減少;或者說從程式設計的角度來說,那些依據人類經驗寫的明確的規則判斷,會變得越來越不及AI技術。

「尤其是近年來AI的熱潮,對機器視覺技術的發展起到了推波助瀾的作用。AI進入了一個新的層級,不僅僅是比運算力,比指標,而是讓機器真正具有人的特徵和屬性。今後AI將會在機器視覺領域扮演越來越重要的角色,並引領其今後的發展方向。」何火高說。

在深度學習應用於機器視覺領域的問題上,雖然無法提供確切的數字。不過從採訪的這幾家企業,都能看出AI比重的加強。Imagination目前主推的產品除了GPU之外,就是NNA神經網路加速器。其GPU本身也用於電腦視覺任務,「比如說360°去扭曲、重疊、資訊顯示等。」 Rodriguez說。

銀牛微電子主打3D雙目立體視覺技術(dense depth stereo)。何火高表示:繼NU4000整合了協力廠商DSP和CNN引擎以後,未來銀牛將自研的其他AI處理能力,也將整合到下一代晶片上。」他透露,未來計畫要發佈的晶片產品,除了主控CPU更強、能耗比更出色,3D深度視覺性能會更好,AI運算力會越來越強勁。

思特威前兩年就開始探討將AI運算力與CMOS影像測器(CIS)更靠近的解決方案——這其實也是這兩年包括索尼(Sony)等CIS廠商普遍在做的事。思特威談到 ,「AI智慧感測器平台」即「在影像感測器上整合邊緣AI運算,能有效地提高關鍵區域(如人臉或車牌)的解析度,降低延遲,並擁有高影格率及超低功耗,為人臉辨識、ADAS、無人駕駛、機器人等先進的AI應用,解決因影格率不夠高、解析度不足導致的回應慢、演示稿及辨識率低等問題,提升整個AI系統的能效。」

傳統CIS產生的資料應用AI其實算相當普遍。但Prophesee這家企業所推的基於事件的視覺感測器,可能不關乎AI的一種感測器類型。因為這種感測器和傳統基於影格的影像感測器是不同的,它感知的是場景變化資訊,靜態部分不會被捕捉;它更適用於常規的簡單規則判斷。不過Prophesee聯合創始人暨CEO Luca Verre告訴《國際電子商情》,最近芯鼎科技(iCatch),以及日本的DMP和Restar都分別宣佈與Prophesee合作,開發基於事件的視覺感測器AI方案,以及全球「首個基於事件的邊緣AI視覺系統和服務」。

 

圖1:AI Research Funding Portfolios and Extreme Growth研究中,電腦視覺佔比近一半。

 

無論這其中的AI具體是如何實施的或者在哪個環節,以基於事件的視覺感測器都在與AI發生結合(或輔助)這一事實,機器視覺與AI已不可分割的。畢竟AI的一大熱點不就是電腦視覺嗎?

去年喬治城大學(Georgetown University)發佈的一篇論文「AI Research Funding Portfolios and Extreme Growth」分析600個大型AI研究集群,發現其中相關電腦視覺研究領域的佔到了將近一半(圖1)。何火高舉例說明:「電腦視覺是AI的最重要應用場景,因為視覺佔人類所有感官輸入的80%。」基於AI當前為市場熱點的事實,都可以說電腦視覺當前正在「如日中天」的發展階段。

發展空間幾何?

要判斷一個產業的發展階段有很多種方法,包括看當前的市場成長率、新技術的運算週期,以及市場參與者的份額分佈情況。比較匪夷所思的是,看了大約不下10篇相關機器視覺的產業報告,諸多研究機構對該產業的市場價值預估數量級相去甚遠——資料跨度有4倍之多;而且對分屬產業、區域的重要性也有各自不同的解讀。這可能和不同研究機構對「機器視覺」的定義有差異,或統計的範圍不同有關。

從市場規模資料、應用方向,以及新技術點幾個方向來推測機器視覺市場目前所處的發展階段。對包括Grand View Research、The Business Research Company、前瞻產業研究院等機構的報告資料取中間值,機器視覺全球市場規模今年大約在130~150億美元左右,預計2021~2026的年複合成長率(CAGR)在8~12%,應該說仍舊是高速成長中的產業。

其中有多家研究機構的報告提到,該市場「高度分散」,有大量市場參與者。2020年排名前10的市場參與者所佔整個市場的份額還不到20%,這裡的「市場參與者」主要說的應該是系統級供應商(如工業相機),典型如Cognex、Keyence等。

至於機器視覺的應用市場和方向,主要包括汽車、食品與飲料、製藥與醫療、電子與半導體、工業機器人、包裝印刷等。在工業操作中取代人工檢查與測量,是機器視覺比較大的應用市場——畢竟全社會的發展方向,本來就是人力成本在不斷攀升的過程。機器視覺的本質是自動化的組成部分,所以工業4.0與機器視覺息息相關。

 

圖2:2020~2026年工業與自動化相機市場發展。

(來源:Yole Développement)

 

要說其中哪個產業成為機器視覺發展的重點,市調機構的說法也差別不小。如前瞻產業研究院認為電子及半導體(製造)是當前機器視覺最大的下游市場;而Mordor Intelligence和Grand View Research則認為最大的應用方向是汽車製造。從資料來看,這兩者應當的確在伯仲之間(雖然可能仍有量級差距);與此同時,汽車產業的發展潛力是普遍被認為最大的。

另外有關北美和亞太市場誰更大的問題也有分歧,但亞太市場發展潛力更大亦為共識,要驗證這些資料的可靠性,Cognex的財報大概是個方法。從Cognex 2020年報來看,這家公司30%的營收來自於消費電子,20%來自物流產業,20%來自汽車,還有30%為其他。美國是其最大市場,歐洲其次。不過如果將其大中華區與亞洲其他地區營收相加,則的確僅次於美國市場。

當然一家公司的情況不能說明整個產業。分析報告資料的語焉不詳、量級差異以及結論不同,都表示該產業尚在上升期早期。當前其技術發展階段,仍有海量需求等待填補;或者說至少該市場離發展「成熟」還相去甚遠。

如前所述,電腦視覺這一學科的發展本身也有些年了。但實際上很多技術的起步都很早,如這兩年才變得很熱、基於事件的視覺感測器,Verre指出,這種技術早在1980年代就有人提出,但技術真正走向成熟卻是這兩年。而這類看起來比較新興,且擁有較大發展前景的感測器,Yole Développement預計,神經形態AI到2030年會達到70億美元市場規模,屆時CIS市場大約有9%的份額會被此類感測器吃下。這就說明,新技術的湧現在促成整個產業的發展,以及機器視覺產業本身也在嘗試各種新技術。

 

圖3:3D視覺市場未來幾年將達到最大漲幅。

(來源:Allied Market Research)

 

3D視覺感測更不必多說,好幾份報告都特別提到了智慧攝影機系統的發展,很大程度將歸功於3D成像市場的成長。因為3D機器視覺當下已經能夠提供精準、即時的資訊,給予機器視覺更多的資料。

「今天機器視覺最大的不同,是未來發展將會越來越多地應用3D視覺技術,尤其是密集的雙目立體視覺技術。」何火高談到,「就像地球物種大爆發的寒武紀一樣,因為有雙目立體視覺能力,物種的進化和交流才迅速得繁盛。」

「機器以前不知道影像中的物體之間的相互位置關係和距離,因此經常產生視覺錯覺和誤判。隨著3D/立體視覺感知技術的產生和發展,尤其是雙目立體視覺技術的發展,對機器視覺中產生的錯覺和誤判就有了非常有效的工具去避免。從而使得3D/立體視覺感知技術在機器視覺中的應用越來越廣泛,重要性和高效率也不斷得到業界的認可和重視。」何火高補充。

實際上即便是傳統的CIS,思特威也在嘗試就機器視覺進行技術面的加強,包括高影格率、全域快門、非可見光下成像(遠紅外增強技術)等。從思特威的官網來看,「機器視覺」是作為其一大應用方向來展示,包括無人機、掃地機器人、AR/VR、智慧掃碼、人臉辨識、工業相機和智慧交通系統,都是思特威看到的機器視覺產業未來的前景。

從技術可創新和當前湧現出的市場新勢力來看,如果將這些機器視覺的總合確切地稱作一個「產業」,則該產業即便在技術層面都還有大量可發展的空間。

且其下屬分支領域都有進一步被寡頭化的空間,尤其在AI技術越來越成為主流之際。雖然面對下游不同應用領域時,機器視覺技術的需求可能是千差萬別:Prophesee表示基於其合作經驗,即便同樣是基於事件的視覺感測器,不同產業對技術的需求都各不相同。

在觀察機器視覺領域時,實則還有很多其他的收穫,比如某些技術趨勢:像是多種感測器的融合(包括視覺感測器與其他類別感測器),邊緣運算的崛起、運算力單元部分向感測器短靠攏,以及能源效率的持續進步等。但真正的大方向仍舊是:在AI技術持續邁進之際,機器視覺即便沉澱了過去幾十年的發展歷程,現在這個時間點才真的算是剛剛開始。

本文原刊登於國際電子商情網站

 

 

 

 

加入我們官方帳號LINE@,最新消息一手掌握!

發表評論