我最近參加了上海世界通訊大會(MWC)。機器人的聲勢浩大,而且是非常浩大。我看到幾十家公司,尋找顧客打造品牌,並提供他們眾多應用程式中的任何一種。

舉個應用程式的例子,機器人護士Tug。它看起來一點也不像我們在科幻片中看到的機器人形象,除非你想的是星際大戰(Star Wars)中某些比較實用的例子。它看起來像是一個有輪子的箱子,但擁有許多我們期待行動機器人具備的功能,包括巡遊和迴避障礙物。這可以在醫院裡巡遊,若是有人走道它面前,就會停下,還會繞過不對的點滴站;這台機器人還能呼叫電梯,前往其他樓層。Tug的重點是送藥和食物給病人,且已經在美國37間榮民醫院服務。

想像這能替忙碌的護士減輕多少肩頭負擔。廠內還有多種其他助理應用服務,在長者照護、在教學支援、餐廳與旅館。把這當成在智慧喇叭之後,下個重要的個人助理物品(Amazon已經有超過十萬台機器人在倉庫工作,所以很明顯他們正在開發家用機器人當作Echo的後繼者)。這不是科幻小說;家用助理機器人今天就可以出貨。

Robot-health-assistant 機器人健康助理

很顯然,生產這種機器人的技術挑戰和自動駕駛問題類似,不過依然有明顯的不同。巡遊和迴避障礙是共通點,但清晰駕駛車道和交通管理的概念,無法運用在這些機器人身上;一切都關乎在建築物內的障礙迴避與巡遊(要重新規劃地圖以繞過臨時不可移動的障礙)。雖然車子有自然語言介面只是還不錯,但是對機器人助理來說,卻是不可或缺。誰想要在藥房送錯藥,或是餐廳搞砸點單時學著怎麼按鈕?

Gartner 最近推出一份機器人人工智慧與感應要求的前十大清單,其中包括了:

  • 電腦視覺-場景分析、物件辨識等等
  • 生物識別與驗證-誰在跟我說話,他們是否獲准下達此等命令
  • 對話介面-話語辨識與自然語言處理
  • 聲音場景分析-辨識明顯的噪音如狗吠或玻璃破裂
  • 地點感應-我在哪,誰/什麼在我附近
  • 自動移動-能夠不撞倒物件或人,移動到建築物其他地方的能力
  • 機器人內建人工智慧功能-不只是仰賴雲端

現今對於建立具有這些能力的系統預設取向,從根據多核心繪圖處理器(GPU)平台,在機器人內建人工智慧系統。這可以理解──產品建立者可以使用現成的平台做樣品,無須擔心專用積體電路(ASIC)細節,就像他們會使用中央處理器(CPU)開發板給更傳統應用程式使用的方式一樣。但是隨著產品數量暴增,或著你正推動其暴增的時候,成本與顧客滿足/差異化就愈來愈重要。現成的解決方案很貴,耗電量很大,且使用和別人一樣的平台就很難有所差異。這就是為什麼無可避免地,大量解決方案轉向ASIC平台。你無須放棄所有已經投入樣品的投資;成本較低的GPU平台可能還是解決方案的一部份,但是重要層次的人工智慧功能性可以轉移到更有成本效率、更加統合的平台上。

在機器學習(ML)應用程式中,數位訊號處理(DSP)優於GPU的每瓦特效能遠近馳名,有一部分原因是固定點優於浮動點操作,還有某些平台的量化彈性。訂做解決方案的價格優勢(以數量算)也很出名。這就是為何你更有可能看到具數量/價格敏感性的ML應用程式在邊際採用DSP而不是現有的GPU。

smart screen 智慧螢幕-無螢幕機器人的形式之一?

但你能做到所有用GPU可以做到的事嗎?答案是還真不少。拿電腦視覺,亦即定位、追蹤、物件辨識、手勢辨識為例。這個程度的視覺處理現在在某些DSP為基礎的內建平台上已經有了。或者用自動移動支援本地重新訓練(無須連上雲端)。再一次,支援此一智慧的核心辨識能力,也是你在GPU會發現的同樣能力,在DSP上也找得到。

語音辨識/驗證與聲音場景分析也可以卸下。這些(和其他這裡舉的例子)明白地點出,為何卸載的意義這麼重要。這每一種智慧操作都分解成多重步驟,就說從取得聲音,到方向解析,到也許基本字詞辨識,最終甚至是自然語言處理(NLP)。最後一步非常困難,可能需要上雲端。但是在那之前的步驟都可以很輕鬆用內建解決方案處理。某些應用程式,只須辨識很有限的單字,或是你希望偵測非語言訊號,例如打破窗戶的地方,你可能根本不需要雲端(或本地GPU)。已經有人暗示,甚至有限的NLP在不久的未來便能在邊際支援。

例如CEVA打造了一連串龐大的解決方案,在邊緣人工智慧用平台、前端語音處理、物聯網深入學習上,使用人工智慧支援這些前端功能。