150多年前,電話的發明掀起了一場通訊革命。如今,隨著各種新型智慧裝置利用人工智慧(AI)從聲音中提取語意,讓人們能以更加直觀的新途徑與身邊的裝置互動,一場新的語音通訊革命就此展開。本文探討技術發展的現狀,並預測哪些技術最終將使無處不在的語音助理成為日常生活的一部份。

“Mr. Watson, come here….”

1876年,科學家貝爾(Alexander Graham Bell)說出這句舉世聞名的話,象徵著聲音首次成功地以電話傳輸。從那以後,人們的工作、生活和娛樂方式發生了翻天覆地的變化,而這項改變世界的創新始終是這些變化的核心。現在,人們如何與世界互動的方式取得了新的突破,語音通訊仍是其中重要的組成部份。

在電話誕生後的第一個世紀裡,有線電話網路遍及全球,將人們連繫在一起。而過去50年間發生的電子革命,促進了可攜式無線語音和視訊通話的發展。近十年來,通訊技術已經從人與人之間的視訊通話,發展到人與機器對話。儘管只是初具雛形,但這種新型的人機互動正推動著新一輪的創新。

如今,電腦、智慧型手機和智慧音箱等都內建語音助理,使用基於雲端的深度學習系統來支援使用者提問和設定操作。人們日常使用的其他裝置很快地也將實現這樣的功能。根據市場研究公司Statistica預計,到2021年,將會有多達18億人在其隨身攜帶的裝置上、在家中甚或商業環境中的其他類型平台上,開始使用語音助理。

然而,受限於當今的技術,語音助理系統在邁向成功的道路上還面臨挑戰。AI、專用處理器以及更靈敏的麥克風等技術進步,將提升語音助理的性能,並促進市場普及。

Tractica, VDA, 2021

在未來幾年中,虛擬語音數位助理(VDA)的使用將急劇增加。據Tractica統計,到2021年,使用數位助理的人數將增加到18億。(來源:Tractica)

富於人性的人機對話

人類對話極其豐富,同時又具有互動性,但這也是語音助理系統面臨的一大挑戰。有時候,當你的話還沒完全說完,朋友就能心領神會。技術上來看,人們互相交談時的回應時間僅為數十毫秒(ms)。在與朋友聊天時,偶爾略加思索再緩緩回答是很自然的事,但如果正常對話中的停頓每每長達數秒,或者經常需要複述問題或命令,日常交流將變得多麼令人難堪。

語音助理「對話」的反應遲緩與其底層技術的若干方面有關。語音辨識和回應所採用的演算法要佔用大量處理能力,因此,當今的智慧型手機和智慧音箱系統採用錄音方式將語音發送至雲端運算資源。為了盡可能縮短傳輸延遲,系統通常傳輸低品質音訊檔,這會導致較高的錯誤率。而網際網路本身是一種變速媒介,所以傳送速率是變化不定的。這兩個因素結合起來,必然會影響依靠雲端來完成語音辨識重任的語音助理品質。

儘管有這些缺點,這項技術仍然令消費者振奮不已。智慧音箱系統是繼智慧型手機之後首款提供語音助理的全新產品,但其銷售量成長速度之快,是智慧型手機問世以來未曾見過的。根據voicebot.ai發佈的資料顯示,2018年,美國智慧音箱銷售量成長幅度高達40%,加上新賣出的6,640萬台,智慧音箱數量已達到1.33億台,佔美國成年人口數量的26%以上。

此外,語音助理將持續提升性能,以便能更準確地模擬人類對話。除了縮短對話延遲,演算法也在不斷最佳化,讓人與裝置的互動會更人性化。這樣的改善在很大程度上是源於讓處理功能的更靠近用戶。

voicebot.ai, smart speaker

voicebot.ai的統計顯示,2018年全美智慧音箱擁有數量年成長近40%,總計達到6,640萬台。(來源:voicebot.ai)

將人機對話移到邊緣裝置

隨著實現雲端處理語音助理的技術日新月異,這些裝置將變得更加個性化。當前的語音助理是向雲端發送資訊並接收雲端傳回的資訊。實現這一功能的AI技術未來將應用於邊緣裝置,從而改善系統的隱私性、功耗和反應速度。簡言之,邊緣運算可以將AI從雲端轉移到人們的家中、工作場所或身邊的其他裝置中,使語音助理更加高效。例如,英飛凌科技(Infineon Technologies)不久前展示最低功耗的關鍵字辨識邊緣解決方案,朝向未來的這個目標更邁進了一步。

醫療和個人健康監測,將是更智慧的語音助理大有可為的領域。例如,高靈敏度麥克風可以監測睡眠時的呼吸聲,預測睡眠呼吸中止症等睡眠障礙的發生。將這類個人健康資訊傳輸到雲端進行處理,可能令許多人感到不安。邊緣處理則在本地擷取音訊、運算並儲存分析資料,完成對健康資訊的監測和分析。如此一來,使用者就能管理資料共用的方式和時間。能夠確保更高隱私性的語音助理,讓人們對監測心臟和呼吸健康、睡眠狀態以及整體健康狀況感到更加安心。

當前AI發展迅速,其動力來自深度學習研究和建構專業深度學習系統的新型硬體。AI晶片新創公司Syntiant目前正在打造可以為邊緣裝置帶來深度學習能力的新型晶片。短短幾年內,由語音助理技術支援的人機互動,將成為數十億人日常生活中司空見慣的事。針對智慧語音助理而開發的技術所具備的用電特性,使得採用電池供電的小型智慧音訊辨識功能也能在許多其他應用中發揮影響力。只要想想你聽到的聲音如何影響自己與世界的互動,就能預見這項技術還將在哪些領域發揮價值。除了日常生活中的應用,語音助理技術也將成為物聯網(IoT)和工業4.0中智慧機器感測器系統的組成部份。

自動駕駛車輛還將利用音訊輸入和其他感測器,以檢測並回應周圍環境。諸如自行車、火車、其他交通工具和大喊大叫的孩子等發出的聲音,都是AI網路的音訊輸入,讓車輛能夠「看到」轉角處的目標。在工廠中,智慧控制網路可以根據機器運作發出的聲音進行診斷、檢查故障,以防患於未然。智慧城市系統會「聽到」諸如玻璃被打破或交通事故等異常事件,並向有關部門發出警報。未來的機器人將把音訊系統納入感測器網路,以支援智慧操作與互動。事實上,潛在應用不勝枚舉。

MEMS麥克風超越人類聽覺

人類的聽覺和認知處理是極其豐富的感官系統之一部份。然而,有朝一日,基於AI的語音助理將在某些方面超越人類的能力。語音助理目前利用微型麥克風陣列和智慧晶片搭配,以準確檢測並理解傳入的聲音。其中一項關鍵技術是遠場辨識,這項技術透過高靈敏度MEMS麥克風和語音處理器晶片,使用先進音訊處理演算法,可聽到甚至是房間另一頭傳出的竊竊私語。其他演算法則有助於麥克風陣列從一個房間內的多個聲源(包括其他人、電視和收音機)中,辨別出發佈命令的具體聲音。例如,英飛凌研發出一種展示系統,將麥克風和語音處理器與微型雷達晶片合為一體,進一步改善存在檢測和聚焦。

infineon, XMOS

英飛凌的雷達和MEMS麥克風之感測器融合,結合XMOS的音訊處理器,為語音助理平台提供了新的建構模組。(來源:Infineon Technologies)

1876年,Emile Berliner發明了麥克風,讓電話變得更實用,如果他今天還活著,一定會對袖珍如斯的麥克風感到驚奇,但他仍然看得出聲音擷取和播放的工作原理。當今市場上的MEMS麥克風採用的工作原理,正與Berliner研發的第一款實用麥克風完全相同:由一片薄膜檢測到聲波產生的空氣壓力,並將其轉換為電訊號。MEMS麥克風能夠檢測到的可聽聲範圍廣泛,從低聲耳語的0db SPL(聲壓級),到搖滾音樂會現場的120dB SPL。分貝(dB)數值採用對數形式,這意味著120dB SPL的能量是0dB SPL聲音的12個數量級(1兆倍)。

在許多應用中,最尖端的MEMS麥克風靈敏度超過了人耳通常能聽到的聲音範圍。相較於相同尺寸的其他麥克風替代方案,英飛凌提供的最新一代元件能在訊號雜訊比(SNR)展現更高10dB的卓越性能。它可以在新一代系統中為音訊處理提供高品質音訊訊號,從而提升整體靈敏度並降低錯誤率。

infineon, MEMS

雙背板MEMS技術在兩塊背板之間嵌入一層振膜,從而產生真正的差分訊號。SNR提高了6dB,達到70dB,相當於將MEMS麥克風所能擷取使用者語音命令的有效距離增加了一倍。(來源:Infineon Technologies)

智慧的發展無止境

如今所使用的音訊處理技術通常採用諸如迴聲消除和主動濾波等概念來抑制有害雜訊,並隔離目標音訊訊號以進行語音辨識。事實上,這種類型的音訊辨識是將雜訊資訊視為背景音。新一代神經網路AI處理器則將採取不同的方法,學習區分雜訊與有用訊號之間的差異。目前業界正致力於朝此方向進展,例如英飛凌聯手合作夥伴,共同開發能夠實現這一任務的麥克風和硬體組合,並透過合作提供一些必要的開發工具,為工業、商業和消費類產品設計AI音訊檢測和語音辨識系統。

不久的將來,利用語音助理技術,人們能夠與所使用的機器進行有意義的對話,哪怕並未連接到雲端,人機對話亦不受影響。用於監測人們健康和安全的感測器系統也將採用這種智慧音訊技術。這是一場持續的語音通訊革命,人們將以全新的方式與機器互動,同時機器也能夠感測所處的環境並作出回應。

(參考原文: Smart Assistants Extend the Voice Revolution,by Pradyumna Mishra)

本文同步刊登於電子技術設計雜誌2020年1月號