隨著無數的智慧裝置不斷擷取大量資料,視訊正以風暴之姿襲捲這個世界。無論是透過智慧攝影機、CCTV設備,甚至是配備智慧攝影機的無人機,用戶正以前所未有的規模與速度錄製視訊。視訊產生的龐大資料量已無法有效地以手動處理,針對資料進行表徵與學習的「深度學習」(deep learning)技術應運而生。

20170405_Security_NT31P1 2015年全球所有新安裝的視訊監控攝影機平均每天產生566PB的資料量 (來源:IHS)

「深度學習」是一個目前已經看到巨大投資和研究的領域,它能夠處理和分析大量的視訊片段——透過模擬人腦的過程,使用複雜的多層次「深度」神經網路,打造從大量未標記的訓練資料中執行特徵檢測的系統。

深度學習技術在近年來迅速崛起,並對長久以來缺少能夠顯著提高先進技術創新的視訊監控產業帶來顯著的優勢,特別是在臉部辨識以及人員和物件偵測等應用,它能透過智慧化的視訊分析技術過濾和處理資料、追蹤移動物件、檢測異常現象,並產生警示提醒,協助監管單位採取適當的行動。

拉抬全球視訊監控市場成長

全球視訊監控領域已在技術與商業方面發生顯著變化。隨著高解析視訊網路攝影機的成本降低、功能更豐富,一方面為終端用戶帶來正面效果,並推動視訊硬體市場商用化,同時也導致製造商與通路合作夥伴的利潤下滑。此外,種種併購行動逐漸減少業界競爭,但也讓少數幾家公司擁有較大的市佔率。

根據IHS Markit預測,全球對視訊監控設備的需求將在2017年持續快速成長。但激烈的價格競爭也將延續,市場成長幅度預計將小於7%。IHS Technology安全、消防與樓宇科技亞太研究組資深分析員王玉君表示,「從整個市場空間來看,未來5年全球視訊監控銷售額的年複合成長率(CAGR)約在6.3%左右。」IHS的資料顯示,2016年全球專業安全攝影機的出貨量超過一億台,比2015年成長約14%。但相較於2015年約30%的成長率,成長速度持續放緩。

據王玉君分析,一方面,面對國內外市場的長期成長速度預期下滑,各大視訊監控廠商正尋求多元化和差異化發展;另一方面,隨著視訊監控產業不斷的技術革新和資料累積,從視訊監控的上游晶片廠商,到視訊智慧分析演算法的軟體開發公司,再到視訊監控設備廠商和下游的系統整合業者開始圍繞著智慧分析、物聯網(IoT)和巨量資料(Big Data)技術來佈局安全產業,期望在產品日趨同質化的競爭中佔領未來視訊監控技術發展的高地:

  • 從產品來看,雖然視訊監控產業整體成長速度不如預期,但某些產品線會遠高於市場的平均成長速度。2017年消費類視訊監控產品、行動視訊監控產品和視訊監控企業級儲存產品的銷售額在全球範圍都會保持15%以上的成長。
  • 從服務來看,2017年全球視訊雲端服務(VSaaS)的銷售額會突破9億美金(不包括安保遠端監控服務),未來5年VSaaS銷售額的平均年複合成長率將超過18%。
  • 從技術來看,支援H.265技術的網路攝影機在2017年會有爆發式成長。視訊智慧分析會因為深度學習技術的應用又一次成為產業發展的熱點。

安森美(Onsemi)應用工程師中心總監Alvin Chang則看好視訊監控產品在大眾運輸系統、汽車內/外監控、老人/嬰兒醫療看護與照顧、智慧家庭和民宿產業中的應用前景。例如,隨著汽車市場的不斷發展,先進駕駛輔助系統(ADAS)或安全駕駛功能的監控需求結合車聯網(IoV),以及未來自動駕駛的安全監控需求都正在顯著增加。而在網路監控產品價格低廉時及時添購設備對很多商業經營者來說負擔並不大,透過此舉不但能夠確保安全,也提升了從業者與客戶之間的便利性。

當視訊分析遇見深度學習

視訊內容分析對視訊監控產業來說並不是什麼新事物。但在王玉君看來,儘管2016年全球帶有智慧分析功能的視訊監控設備銷售額超過10億美元,但卻只佔所有視訊監控設備銷售額的9%。除了價格因素外,傳統智慧分析產品的誤報率和對安裝環境的挑剔都是阻礙智慧分析被市場大規模採用的因素。

經過幾年的市場發展,使用者開始意識到視訊智慧分析確實可為城市交通治理、公安刑偵和商業管理帶來很大價值,因此市場對具備高性能的優質視訊智慧分析產品是充滿期待的,深度學習技術在視訊監控領域的應用正是在這樣的背景下蓄勢待發。

深度學習最早是從1980年代的「人工神經網路」(ANN)演變而來。然而,由於難以正確訓練神經網路以及硬體CPU速度太慢等限制而無法實現真實世界應用,這項技術在1980和1990年代起飛。一直到2000年,深度學習研究才開始從美國史丹佛大學、紐約大學以及加拿大多倫多大學等學術界取得突破與業界關注。

根據市調公司Markets and Markets預計,深度學習市場將自2016年以65.3%的CAGR成長,預計在2022年達到17.22億美元的市場規模。深度學習技術將在汽車、金融與視訊監控等多個產業發揮巨大的潛力,主要的驅動力道來自於更先進的處理硬體,以及越來越多基於雲端技術的深度學習應用。

過去幾年來,深度學習已經應用在手寫辦識、語言翻譯、自動遊戲(棋弈)遊戲、物件分類、臉部辨識、醫學成像分析以及自動駕駛車等許多領域。2015年10月,Google電腦程式AlphaGo首次打敗專業的人類棋手,更是使用深度學習技術的最佳寫照。

一方面,基於GPU架構的深度學習技術使得視訊分析演算法的開發效率顯著提升,縮短了演算法反覆運算的週期和成本;另一方面,深度學習技術可以透過對機器的不斷訓練,為視訊分析演算法實現最佳化,提高智慧分析的準確性,在複雜環境下完成高強度視訊分析任務(例如在鬧區進行人臉比對和追蹤)。

包括產業界和學術界的研究人員都使用GPU來加速深度學習演算法。GPU可以快速且有效率地處理高度平行的運算任務,如視訊和繪圖。以GPU為基礎的深度學習已經為各種應用帶來突破性進展,包括圖形分類、語音辨識以及自然語言處理。

核心的平行運算架構——CUDA的廣泛普及,也在深度學習解決方案的最新進展中發揮重要作用。CUDA有助於讓每個程式管理人員快速、輕鬆地將解決方案從筆記型電腦移植到Nvidia嵌入式運算平台Jetson上運作的機器人、無人機或智慧相機。加上GPU的運算與平行能力,這些先進軟體將可自行管理。

20170405_Security_NT31P2 Jetson開發平台提供CUDA平行運算架構,發揮深度學習的潛力 (來源:Nvidia)

除了Nvidia,Google、IBM、高通(Qualcomm)等業界廠商也投入該領域的晶片開發。高通計劃在2018年擴展其Zeroth平台的神經形態功能,延伸認知運算與機器學習至其他的嵌入式應用,例如穿戴式裝置與無人機等。

因此,從長期來看,深度學習技術有助於降低智慧分析應用的成本,也會拓展帶有智慧分析功能的視訊監控設備應用擴展。除了價格因素外,從短期來看,深度學習技術在視訊監控領域應用的最大挑戰就是如何將那些優質的演算法根據實際的應用情景進行二次開發,實現真正的技術落地。

「使用視訊分析實現目標和事件檢測,無論是即時的還是後期的,將持續位於視訊監控技術創新的前端。」Intersil類比產品市場和應用總監Raman Sargis認為,視訊監控產品一般使用動作檢測來觸發視訊擷取,但這很容易出錯。「從好幾個小時的視訊中尋找出某一個事件非常耗時。因為視訊包含了大量的資訊,如何分辨哪些是有價值的,哪些應該刪掉,這為用戶帶來了挑戰。」

20170405_Security_NT31P3 高通計劃擴展其Zeroth平台的認知運算與機器學習功能至穿戴式裝置與無人機等嵌入式應用

深度學習實現視訊監控應用

如今,透過嵌入於攝影機(即時)和錄影機/視訊儲存(後期處理)的深度學習演算法,可實現智慧擷取或查看某些特定視訊畫面。Raman Sargis說,深度學習技術已經取得了重要的進展,並應用於一系列基於視訊的解決方案中,在汽車中採用的障礙物偵測和防撞就是一項很好的應用實例。

儘管許多產業均已應用深度學習技術取得較傳統系統更多突破性的成果,但並不是所有的應用都適合深度學習。以視訊監控領域來看,IronYun執行長Paul Sun指出,包括臉部辨識以及人員和物件檢測等應用可望從深度學習中受益:

臉部辨識: 深度學習技術大幅提高了臉部辨識的準確率。根據美國國家標準與技術研究所(NIST)在過去十年進行的臉部辨識廠商測試(FRVT)報告,目前的臉部辨識演算法較2002年的準確度提高了10倍,更較1995年提高了100倍的準確度。如今,最佳的臉部辨識商用產品大多都導入深度學習技術。此外,根據Facebook和特拉維夫大學(Tel Aviv University)的研究,在機場移民臉部辨識等受控制環境的應用,其精確度已經達到99.9%了。

人員和物件檢測: 人員檢測和物件檢測是深度學習表現出巨大進步的另一個領域。例如,過去五年來,IMAGENET資料庫組織了「大規模視覺辨識挑戰賽」,挑戰以影像軟體演算法進行檢測、分類和分析來自Flickr和其他搜尋引擎收集超過150,000張照片的資料庫。許多深度學習系統使用基於GPU硬體加速器的IMAGENET資料集中超過120萬個影像進行訓練。從2010年到2014年,其準確度從72%提高到90%以上。

而如果要把人工智慧導入傳統的視訊監控領域,將取決於在攝影機、網路儲存和後期處理之間分配的視訊分析功能。如攝影機至少需要原始智慧來辨識想要的視訊訊號,並為它們標上深度分析標籤,在視訊傳輸到視訊儲存媒介後進行深度分析。Raman Sargis強調,「視訊分析作為一種服務,是一個微型的垂直市場,可以利用協力廠商專利分析功能獲得成長。」

Axis執行長Johan Paulsson指出,「在綜合所有資料的情況下,我們認為深度學習技術即將躍上台前,這是非常值得關注且令人振奮的領域。」他認為深度學習和人工智慧技術透過運用模式辨識軟體,正在努力「學習」全世界安裝的多重安全監控攝影機看到的不同類型行為。雖然人員各不相同,但他們所在的環境、地點和普遍行為通常可歸為同一類型。「學習」到這些行為後,便可以分享底部潛藏的模式,讓系統在發生不尋常事件時發出警示。

當然,實體安全不僅涉及人員/地點/物體的監控,也涉及實體門禁控制、單向和雙向通訊及管理緊急情況(且通常都是遠距離管理)。因此,2017年應該是安全監控攝影機與智慧門禁管控、對講機和擴音器(無論是本地或遠端)密切整合的一年。這意味著只需一個簡單系統就能即時管理上述全部裝置功能,讓用戶可看到、聽到建築物內/附近的人,並與之交談。

此外,基於深度學習的視訊監控系統還可擴展到無人機和機器人等嵌入式應用領域。安全的無人機和機器人是近一、兩年湧現出的新事物,儘管目前市場份額並不大,但獲得了眾多的業界關注,並被視為今後具有成長潛力的市場。

根據IHS Markit 2016年發佈的預測顯示,2016年全球專業服務機器人(相對於工業製造機器人)和專業服務無人機的銷售額分別為26億美元和3億美元,未來5年的CAGR分別達到了38%和70%。儘管安全領域的應用只是這兩個市場的一小部分,但未來的產業發展前景卻非常誘人。另外,相較於傳統的視訊監控產品,智慧化的安全無人機和安全機器人的進入門檻更高,競爭程度也沒有傳統安全產品激烈,傳統安全企業利用自己的視覺技術可以在這兩個產業中獲得新的收入和利潤的成長點。

安全無人機可用於緊急事件後的快速偵察,在區域遭到入侵或自然災害等事件發生後,迅速飛入現場進行偵察。但由於其續航時間有限(一般在30分鐘左右),無法進行長時間的巡邏監測。基於深度學習的安全機器人的優勢除了有更長的續航能力外(可以長達8小時),還可以安裝多個攝影機和感測器,提供360度全景影像和各種環境資料,用於電力、能源、化工等廠區的巡邏作業。

Raman Sargis看好安全無人機的成長潛力,理由是安全無人機的部署速度比較快,對安全視訊監控有著更大的影響。他相信無人機已經在邊境控制、區域跨度較大或高危區域執法中得到了應用。安全機器人也許在與人互動創造價值的場景中比較有用,例如公園、大學、醫院和機場等。

Alvin Chang對此也持類似觀點。一些僅需要簡單動作即可完成的工作,確實可以由機器人來完成,市場成長空間也相對比較大,例如機器人飯店前台招待人員或是將來在無人停車場、校園、公園部署的警用巡邏監控機器人等,都可結合視訊監控與分析功能。但他也指出,機器人和無人機更廣闊的應用空間,還是被用於製造業以取代高漲的人力成本,以及運動、旅行、登山、娛樂和自拍等消費類應用中。

基於深度學習的視訊監控解決方案

相較於傳統的電腦視覺演算法,基於深度學習的演算法優點之一在於深度學習系統可以用更好和更多的資料集連續進行訓練和改善。根據許多相關應用顯示,相較於準確度難以超過95%的剛性電腦演算法,深度學習系統可以透過「學習」達到99.9%的準確度。

此外,深度學習系統的另一項優點是「異常」事件檢測。深度學習系統具有偵測未定義或意外事件的能力。這種功能讓深度學習具有讓安全視訊分析系統大幅減少誤報檢測事件的潛力。事實上,誤報偵測率居高不下,一直是視訊監控產業的關鍵問題之一,甚至讓許多供應商的智慧視訊分析解決方案難以廣泛被接受。

具體來看,隨著機器學習等應用快速擴展到越來越多的終端市場,在邊緣、在雲端,或者以混合的形態開始將基於邊緣的處理以及基於雲端的資料分析融合在一起。賽靈思(Xilinx)策略與市場行銷部資深副總裁Steve Glaser指出,眾多的傳統嵌入式視覺應用透過採用機器視覺和感測器融合技術後正發生巨變,下一代應用包括協作機器人、具有感應和躲避功能的無人機、擴增實境(AR)、自動駕駛汽車、自動化監控和醫療診斷等。

這些系統通常具有三大使命:

  • 系統不僅要會思考,而且還能對情境立即做出「回應」。這需要一個從感應、處理、分析、決策、通訊和控制的完整流程中更一致的視圖。同時還要高效實施、部署最新機器學習技術,滿足8位元以及更深層面的精確性要求;
  • 鑒於神經網路和相關演算法的快速變化以及感測器的快速發展,必須實現靈活性,才能透過軟、硬體的可重配置性升級系統;
  • 由於許多新系統都連接在一起(物聯網),因此必須與傳統的現有設備通訊、與未來推出的新設備通訊,還要能夠進行雲端通訊。

對於賽靈思而言,其半導體元件的優勢只有那些擁有硬體或者RTL設計專長的專業用戶才能受益,對於更廣泛的應用和支持使用產業標準庫和框架進行軟體定義程式設計,還存在巨大的障礙。為此,賽靈思推出了全新的reVISION堆疊,旨在支援那些沒有深層硬體專業技術的設計團隊,僅使用軟體定義開發流程就能將機器學習和電腦演算法高效的整合到系統中。

reVISION堆疊包括用於平台、演算法和應用開發的豐富開發資源,支援最流行的神經網路(諸如AlexNet、GoogLeNet、SqueezeNet、SSD和FCN)以及庫元素(如CNN網路層的預定義最佳化型建置方案,這也是建構客製化神經網路DNN/CNN所需要的)。

20170405_Security_NT31P4 賽靈思的reVISION堆疊包括Zynq SoC和MPSoC開發平台,支援用於機器學習的Caffe和用於電腦視覺的OpenVX(將於2017年下半年推出) (來源:Xilinx)

誰來捍衛視訊監控安全?

談到視訊監控,最令人擔憂的是分佈式拒絕服務(DDoS)攻擊監控攝影機的影響。網路安全(cyber security)和視訊監控人員一直在討論不可靠的攝影機可能在某些時候造成危險,而這些顧慮在去年秋天僵施網路(Botnet)利用大量IP攝影機癱瘓DNS服務供應商Dyn的事件中表露無遺。

2016年10月,美國遭遇DDoS攻擊,導致大量視訊監控攝影和網路陷於癱瘓,讓人們再次對網路安全防護產生了焦慮。Raman Sargis指出,「任何連網裝置都會面臨駭客和惡意攻擊的風險。IP攝影機本質上是物聯網的一個節點,可以獲得物聯網架構中實施的同等級安全保護。我認為IP攝影機的安全性應該歸類為廣義物聯網安全的一部份,長遠來看它將無縫融合於物聯網結構中。」

其實不僅僅是視訊監控產品,所有接取網路的物聯網裝置都面臨著網路安全問題。加強視訊監控設備的安全加密和認證是最直接的避免網路病毒襲擊的方法。此外,也可以安裝嵌入網路安全監測的視訊監控交換機,ICT供應商或系統整合商也可以利用已安裝的ICT網路安全產品對視訊監控產品進行保護。當然,視訊監控網路安全問題也帶來了一些新的商業機會,例如協力廠商網路安全測試和認證的服務、提供給系統整合商的ICT網路安全諮詢服務等。

對此,Paulsson認為深度學習將在安全監控方面發揮重要作用。透過「模式」辨識軟體「學習」行為,並進一步檢測與分析,讓系統在發生不尋常事件時發出警示,協助管理人員或監管單位採取行動。

透過深度學習可望為視訊監控環境改善一部份難以(和無法)進行視訊分析的問題。然而,相關產業界還必須進行更多的努力,持續提升深度學習系統,學習和偵測安全環境所特有的特定事件。

考慮到2017年會有更多的智慧攝影機、門禁監控、音訊設備、家電、工業設備接取網路,Johan Paulsson呼籲所有製造商都應該將安全視為優先,讓客戶更專注於其擅長的領域,由安全專家改善所提供的服務。他並預期2017年將是結合新攝影機功能、智慧分析和深度學習進行臉型辨識、鑒識分析和周邊防護以因應安全挑戰的一年。