英國薩里大學(University of Surrey)的研究人員開發了一種新穎的卷積神經網路(CNN),可用於重新辨識視訊監控影片中的行人;此外,由於該CNN尺寸夠小,使其得以部署於諸如安全監控攝影機等邊緣裝置。研究人員並聲稱,該人工智慧(AI)技術甚至比人們更擅長操作攝影機。

新的神經網路稱為全尺度網路(Omni-Scale Network;OSNet),用於實現「跨鏡追蹤」(ReID)網路的全尺度特徵學習;它僅採用220萬個參數,這在深度學習架構中算是非常少見的。相形之下,其他這一類針對行人再辨識的ReID網路,通常以經典的ResNet-50影像辨識演算法為基礎,它往往必須使用高達2,400萬個參數。

這表示OSNet可以在邊緣裝置執行,而不必上傳雲端,因而夠節省頻寬,否則如果將大量視訊影片都傳送到資料中心的話,將會十分耗用頻寬。

這項研究是在薩里大學的「視覺、語音和訊號處理中心」(Centre for Vision, Speech and Signal Processing;CVSSP)進行的。ReID是採用多台攝影機監控系統的基本功能之一,能夠追蹤出現在不同非重疊(non-overlapping)攝影機畫面中的行人。由於每一台攝影機的視角情況可能完全不同,使得追蹤或匹配同一個人成為相當困難的問題。在視訊監看畫面中,行人與攝影機之間的通常存在一定的距離,使得這一問題更加複雜化,因為有太多不同的人所穿的衣服看起來很可能十分類似。

Person_ReID

針對行人進行跨鏡追蹤(ReID)是一大挑戰。在圖1中的每一組照片,從左到右分別提供了原始影像、成功匹配的影像,以及匹配錯誤的影像進行比較。(來源:University of Surrey)

CVSSP電腦視覺與機器學習特聘教授Tao Xiang表示,「透過OSNet,我們著手開發了一種工具,它能克服在其他設置中所面臨的行人再辨識等許多問題,而最終的結果遠遠超出了我們的期望。透過OSNet實現的ReID準確性明顯超過了人類操作員。」OSNet不僅顯示在許多跨鏡追蹤問題上的性能優於同類方案,而其結果也顯示它本身就可以作為一種獨立的視覺辨識技術。」

研究人員們在其論文——《用於人員重新辨識的全尺度特徵學習》(Omni-Scale Feature Learning for Person Re-Identification)中指出,儘管OSNet模型的尺寸較小,但在6個行人的ReID資料集上達到了最先進的性能,大幅超越其他大多數的大尺寸模型。

OSNet基於各種空間尺度的資訊組合,並同時考慮了對應於較小的局部區域(如鞋子、眼鏡),以及行人身體的全域範圍(行人的體型大小和年齡、大概的服裝組合,如白色T恤+灰色短褲等)。首先,該技術採用全身特徵(如服裝組合)來縮小搜尋範圍,然後再檢查局部特徵,例如鞋子是否匹配等。

針對目前存在挑戰的情況(例如圖1(d)),則需要採用跨多個尺度的更複雜功能。研究人員以行人T恤上的標誌為例解釋,但影片的距離來看,它很可能會被誤認或混淆其他圖案。因此,透過標誌(小尺度)加上白色T恤(中尺度)的組合,可望使追蹤與匹配功能達到最佳效果。

OSNet採用由多個卷積串流組成的多尺度,實現了這種有效的特徵組合,每個卷積串流都檢測一定尺度特徵。其所產生的多尺度特徵圖形則由新穎的統一聚合閘(可訓練的微型網路,共享所有串流中的參數)產成的權重進行動態融合,以產全尺度特徵,並可根據需要從不同的尺度中篩選出任何特定尺度的特徵或混合特徵。

OSNet Structure

輕量級OSNet網路結構,其中,R是指接收區(receptive field)的大小。(來源:University of Surrey)

編譯:Susan Hong

(參考原文:Lightweight AI Tracks Suspects Between Cameras,by Sally Ward-Foxton)