語音介面在2017年成為相當火紅的話題,許多人甚至將2017年稱為語音控制年。但只要接觸過語音控制的使用者,一定曾碰過令人頭痛抓狂的時候;雖然語音有機會成為人機介面的最終選擇,但現在還不是時候。在這篇文章中,我們將探討語音控制的幾個問題,以及有那些需要改進的功能。

大廠採用自家平台

目前,在語音介面領域中,最明顯的首要問題就是封閉平台(walled garden)的問題——每家大廠都採用自己開發的封閉系統,想從語音介面上賺錢當然是一件棘手的事。相較於視覺媒體(visual media)——如網頁瀏覽器、文字搜尋引擎,要在語音介面上投放廣告並不容易。當然,如亞馬遜(Amazon)這一類的公司必須確認其語音服務是否能帶來獲利,因此,Alexa的重要功用之一當然就是幫助你在亞馬遜網站上進行購物。

但若跟其他廠商買東西時會發生甚麼情況?顯然地,各種語音助理分別在產品與服務中提供了封閉的系統,因而限制了使用者的選擇。一種可能的做法是讓所有的裝置與服務都能透過語音啟動。之後只要透過編程,機器間就能透過語音互相溝通合作,舉例來說,Alexa可以透過語音控制電視、錄製使用者喜愛的電視節目,而無關乎電視服務供應商是誰。這將有助於解決封閉平台的問題,並且讓使用者了解機器間如何溝通。

但是,另一方面,當家中的冰箱、電視、吸塵器、燈具或其他電子裝置大聲溝通時,有可能使環境變得嘈雜,就像動畫電影《玩具總動員》(Toy Story)裡面的玩具一樣。

截至目前為止,在這些情況可能實現之前,仍然有些問題要解決。在一個有關Alexa和Google語音助理之間「永無止境」的對話影片中,顯示了可能發生的問題。

雖然這是預先安排好的,但由於一些意外觸發所導致的干擾與技術上的小問題仍然出現,像是先前在電視新聞報導時,主播說了一句:「Alexa,幫我買一間娃娃屋。」你可以想像接下來會發生甚麼事情——許多觀眾家中的Echo意外被觸發甚至下訂!

虛擬語音助理能多聰明?

接著談到下一個議題——何謂人工智慧(artificial intelligence;AI)。由於深度學習(deep learning)與其他人工智慧領域的長足進步,現今許多裝置支援的自動語音辨識(ASR)已有一定水準。但這些虛擬助理(virtual assistant)到底能聰明到什麼程度?我們又能指望他們些什麼呢?

在電腦科技領域,與人工智慧相關且最廣為人知的就是由艾倫·圖靈(Alan Turing)所設計的圖靈測試(Turing test)。為了通過測試,具備人工智慧的機器在測試時必須與人類的反應幾乎一樣,電影《人造意識》(Ex Machina)就是一個很好的示範。電影中的人形機器人Ava成功地通過圖靈測試,其成功的關鍵在於Ava能無限制地存取使用者的資訊,以及所有人類的興趣、喜好與想法。電影中收集巨量資料的虛擬公司Blue Book讓人聯想到Google與Facebook。

20170725_Voice_NT31P1 電影《人造意識》(Ex Machina)中的人形機器人Ava;Alexa還要多久才能成為像Ava這樣的智慧機器人?

先不管科幻小說的內容,很難說還要多久才能設計出這樣智慧化的機器。一方面,機器學習的發展神速,以較專家們預期更快的速度不斷達到里程碑,例如AlphaGo打敗韓國棋王李世石。但是許多一般的聊天機器人(chatbots)則沒有這麼聰明,他們會犯一般人不可能會做的錯誤,像是提供色情內容給孩童、不經意地說出種族歧視的字眼,甚至只是令人沮喪地健忘。由於這些情形,讓我們覺得機器人要達到Ava等級的智慧化似乎是遙不可及。

手動點擊才能啟動hand-free介面?

語音介面中最重要且最有用的功能之一是不必靠手來控制,這是它的優點之一,你可以在雙手忙著做其他事情的同時,使用語音介面控制電子裝置,例如開車時(「播放NPR」)、煮飯時(「設定8分鐘的烹調時間」)、打字時(「要求提供『許多』同義字」)、抱小孩時(「關燈」)、手拿日用品時(「開門」)等等。其概念是讓你使用你的聲音控制,而不必動手。但令人困惑的是,許多語音控制的裝置在啟動前必須先進行手動設定,例如以手點擊或滑動之後電子裝置才會啟動語音控制。

這樣做的原因並不是什麼秘密。「傾聽」(listen)這個動作是主動狀態,需要經過處理,因此會使用到電池,而在可攜式裝置中,電池的容量有限。因此,為了減少耗電量,可攜式裝置中會加入手動觸發的設計。但想像一下,如果你有一個朋友或是同事,總是在做任何活動前都在睡覺,你要和他們說話前都要先戳他們一下,那就很不優了,對吧?語音控制的裝置也是同樣的情形,點擊才能開啟功能並不合理。要同時達到可攜與不用手動控制的理想狀況,就得有效地利用既有資源。情境處理上必須絕對有效率地處理特定功能,這就是為什麼要有長時傾聽(always-listening)的設計。

有一些裝置已經是永遠開機的狀態,所以要等到這些耗電的處理器達到低功耗且永遠開機的狀態,還需要一些時間。最近推出的Amazon Echo Tap就是最好的佐證,它可以不需要用手操作。亞馬遜透過線上軟體更新(over-the-air;OTA)來提供這個功能,這也突顯出在快速變化的市場中,提供具有彈性、可隨時更新的解決方案有多重要。(他們在為產品命名時,顯然沒有想到要加入更新功能。)

20170725_Voice_NT31P2 長時傾聽(與免手動控制)的功能讓語音介面變得更便利

缺點是,要達到持續更新與長時傾聽的功能,電池壽命會減少到只剩8小時。在以後的報導中,我們將討論如何增加待機時間的技術,使電池使用壽命從8小時延長到3個月!

機器真的能完全自然地與人類互動嗎?現在市場上有許多不錯的語音介面,但若要達到完美、無縫的語音介面控制,還有許多問題要解決。許多科幻小說中描繪機器具備高度智慧,並能自然地與人類互動。未來,我們將進一步探索那些能讓我們更接近這個奇妙境界的未來科技。

(參考原文:Just because machines can talk, doesn't mean they're smart,by Eran Belaish)