瑞士電子與微技術中心(CESM)的研究人員開發出高效率的機器學習演算法,並用於設計出一款僅有幾立方公分的低功率即時臉部偵測與辨識攝影機系統。

研究人員將這款經概念驗證的系統稱為「視覺封裝」(Vision-In-Package;VIP)系統,整合了攝影機系統,以及低功耗處理器(ARM Cortex M4/M7與8MB RAM)、高動態範圍成像器、光學元件和通訊介面等。該系統僅佔用約4立方公分的空間,連電池加起來的重量還不到20克,並配備一套可即時執行的完整臉部分析管線,並完全嵌入於此VIP系統中。

其軟體部份十分精簡且獨立作業,無需外部支援。它是由精簡版uKOS作業系統(在μKernel計劃開發)以及執行於其上的臉部分析套件共同組成。相較於執行於強大硬體架構的現有系統,VIP系統僅需更低幾十倍的CPU時間與記憶體容量,而其分析管線大約以每秒4-5格的速率執行QVGA級的解析度。

首先,該系統偵測到所有的臉部資料輸入並擷取訊號格,這通常需要不到100毫秒(ms)的執行時間,而且僅需幾百KB的RAM記憶體。接著,諸如眼角與鼻角等臉部特徵,就會落在每次偵測到的臉部區域,並經過標準化步驟(水平校準眼睛以及縮放臉部至標準尺寸的概略幾何轉換步驟,以及光度測量標準化,包括移除由陰影和不均勻照明所導致的非線性強度變化),歸納出「臉部」。

然後進行實際的臉部辨識,在一些特點位置擷取描述性特徵,以便在臉部註冊資料庫中辨識人物。任何時候,只需點選即可在此資料庫中註冊新的人臉,而無需再次進行訓練。

為了實現這一點,研究人員們使用高效率的機器學習演算法,包括Adaboost、回歸樹的集合以及LBP演算法,並進行數百萬個案例的「訓練」。研究人員表示,由此產生的分類器通常僅佔幾百KB的空間,甚至還可快速執行在低階行動處理器上。

該視覺封裝系統還可應用在穿戴式裝置、行銷與廣告分析(收集收視率與人口統計資料、實現更多人際互動的機器人)、電視製造商(1984年型電視機即將來臨)、汽車產業(監測駕駛人是否有睡意、分心駕駛,或用於自動設定調整),以及無處不在的安全相機(日益智慧化)。

編譯:Susan Hong

(參考原文:Vision-In-Package system integrates real-time face detection and recognition,by Julien Happich)