隨著虛擬助手變得更加智慧,我們對它們的期望越來越高。現在,簡單的語音命令實際上被認為是理所當然的,深度學習可以實現更複雜的交互,如情境對話和情感偵測。在我之前的專欄中,我回顧了當前流行的語音介面的缺點和缺失特徵,但是這些複雜的情況正瀕臨消除。在本文中,我將展望未來的語音介面和能夠推動它們的技術。

20170621TA01P1 圖1 描述一台來自電視劇《西部世界》的 Android「主機」。(圖片來源:HBO)

能夠相互通訊的長時傾聽機器

語音優先使用者介面(UI)需要長時間傾聽。這對使用小電池的小型可攜式裝置來說是一個挑戰,每微瓦都是寶貴的。在這方面,有趣的發展之一是使用壓電從聲波產生電能。一家專門研究這項技術的公司Vesper最近為壓電微機電系統(MEMS)麥克風的研發募集了1,500萬美元。此外,在CES 2017上,Vesper和DSP Group展示其電池供電裝置的近零功率語音啟動。當環境安靜時,他們的解決方案使用壓電效能來保持系統處於低功耗喚醒模式,該平台使用DBMD4始終在線的語音和音訊處理器實現了比現有方法低五倍的功耗(根據公司資料)。

這項技術可能成為真正的長時傾聽介面的解決方案,即使是最小的電池供電裝置,如蘋果(Apple)的AirPods(目前需要點擊來操作Siri)。可以從這項技術獲益的另一個裝置是Amazon Echo Tap。Tap最近實現了軟體升級,使其能夠長時傾聽,但升級將待機時間從3周縮短至約8小時。哎呀!使用上述方法,待機時間可以增加到幾個月!未來隨著壓電技術的改進,像Tap這樣的裝置待機時間可能會達到數年(圖2)。

20170621TA01P2 圖2 微型VM1010壓電MEMS麥克風可以在接近零功率時用聲音喚醒。(來源:Vesper)

對於整體UI,機器還必須能夠彼此通訊,以及與人類進行通訊。為了避免被限制在每個服務提供者的封閉生態系統(稱為「圍牆花園」)中,裝置之間應該有一個統一的通訊協定,類似智慧型手機應用程式的深度連結。這個問題的一個解決方案可能是讓裝置透過無聲的超聲波音訊進行通訊,就像LISNR提供的技術。該解決方案使用音波傳輸可定制的資料封包,在啟用的裝置上啟用近距離資料傳輸、第二螢幕功能、身份驗證和裝置到裝置連接功能。

用於個性化使用者體驗的生物特徵識別

語音介面的另一個理想特徵是使用者個性化。每個人都有獨特的聲音和自己的特徵;這被稱為「聲紋」。透過聲紋辨識每個使用者的技能是語音介面的巨大進步,它將透過瞭解每個使用者經常使用哪些服務、喜歡的音樂等,為每個使用者提供個性化體驗。例如,如果你和其他家庭成員使用同一個語音助手,你們每個人都可以問「我的每日行程是什麼?」,但你只會收到你自己的行程內容。另外,聲紋也可以用於生物特徵識別,確保用信用卡消費時只能由持卡人或其他授權使用者進行。

有傳言表示Amazon的Alexa很快就會具備這樣的技能;然而,在此期間,不同使用者之間的切換只能透過語音進行,而不能進行身份認證。Google Home同樣如此,但是Google Pixel手機上的「語音助手」具備「信任的聲音」功能,這使使用者可以透過說「Ok,Google」來解鎖手機,這也顯示其應用了這項技術。下一步是將其適當地整合在具有遠端語音拾取功能的裝置中,為多個使用者提供服務。實現這一點的主要障礙是在語音辨識之前處理語音輸入,以清理語音輸入時引入的失真,如本文中所述,為什麼語音助手無法知道誰在說話?

在我最近的專欄中,介紹了語音介面背後的現今技術,我提到一些用於清除語音命令雜訊和回聲的演算法。在將資料傳送到通常位於雲中的自動語音辨識(ASR)引擎之前執行,清理過程傾向於消除構成聲紋的獨特標記,結果是,傳送到雲端的語音資料足以理解所說的內容,但不能確定是誰說的話。在這種情況下,執行邊緣分析,也就是處理裝置而不是雲端的語音可以解決問題。與針對視訊分析的邊緣處理一樣,與基於雲端的處理相比,高效的邊緣解決方案可以改進隱私保護、提高安全性、提升速度並降低成本。

把事情放在上下文中:類似人類的記憶

虛擬助手的下一個挑戰將是利用深度學習的力量來建立類似人類的記憶技能。這將使助手以人類自然地與其他人交往的相同方式進行對話。這包括在上下文中引用事物的能力;例如,讓我們考慮以下對話:

人類:「你記得我上個月要你訂購進口啤酒,好讓舉辦我妻子的生日聚會嗎?」 機器:「是的,是可樂娜黑啤酒,你要我再訂一包六罐裝嗎?」 人類:「再訂兩包六罐裝。」 機器:「好了,兩包六罐裝可樂娜黑啤酒正在送來的路上。」

對於兩個人來說,這是一個簡單而微不足道的交談。但是為了讓機器理解需訂購什麼啤酒,它必須記住下上一個訂單的上下文,這需要以智慧的方式組合不同領域的知識(如訂單歷程記錄、家庭成員、行事曆場合)以正確理解要求。另外,請注意:在上述情景下,機器可以理解需要它的協助,即使沒有明確地將其稱為如今的裝置。

使用卷積深度神經網路(DNN),機器在需要複雜思想、情境記憶和決策的任務中,越來越接近於人類的表現。從而為無人駕駛汽車制定駕駛策略到在倫敦地鐵導航,複雜的DNN使機器達到實現這一目標所必需的智慧水準成為可能。

...繼續閱讀請連結EDN Taiwan網站