可擴展訊號處理鏈讓語音助理「恰如其分」

作者 : Moshe Sheier,CEVA行銷副總裁

更優質的訊號處理和語音辨識功能、更強大的終端和雲端運算資源正推動智慧音箱和語音控制裝置的進展,使其得以「恰如其分」運作——無需任何學習過程,就能讓人們以日常語言與其對話…

隨著Amazon Alexa和Google Assistant越來越能正確瞭解人們的要求,智慧音箱和語音控制裝置變得越來越流行。

這種裝置的主要吸引力之一就是「恰如其分」,亦即無需經過任何學習過程,人們越來越能像跟人一樣用日常語言與這些裝置對話,且獲得有效的反饋;這樣的功能背後需要進行大量的複雜處理。

本文將簡介語音控制解決方案的系統架構、後台作業,以及所需的硬體和軟體。

訊號流和架構

語音控制裝置看來五花八門,但基本原理和訊號流則是大同小異。以Amazon Echo智慧音箱為例,先來看看其中涉及的主要訊號處理子系統和模組。

圖1顯示智慧音箱的整個訊號鏈。

Signal chain for voice assistant

圖1:以CEVA ClearVox和WhisPro為核心的語音助理訊號鏈
(來源:CEVA)

圖左側顯示一旦語音活動檢測(VAD)到語音,就會先將其數位化後進行多個訊號處理步驟,以提高所需主音箱語音進入方向的清晰度。經數位化處理的語音數據然後傳送到後端語音處理;此處理可能部分由邊緣(亦即裝置本身)、部分由雲端執行。最後按需要產生回應,並經解碼以及數位─類比轉換後由音箱輸出。

其他應用可能略有差異及不同的優先順序──例如車載語音介面就需要先最佳化以處理車內的一般背景雜訊。由於對耳內「可聽裝置」和低成本家用電器等小型裝置的需求,因此也產生了降低功耗和成本的整體趨勢。

前端訊號處理

一旦語音被檢測及數位化後,即需執行多個訊號處理作業。除了外部雜訊外還需要考慮由聽音裝置產生的聲音,例如輸出音樂的智慧音箱或與線路另一端通話者的對話。為了抑制這些聲音,智慧音箱會使用迴波消除(AEC)技術,以便即使在播放音樂或對話中使用者也可以強行打斷。迴音一旦消除,即可用雜訊抑制演算法來清除外部噪音。

語音控制裝置的應用雖然五花八門,但基本上可歸納為近場和遠場收音兩大類;一種是掛或戴在使用者嘴旁的耳機、耳塞、聽戴式和穿戴式等近場裝置,另一種則是從整個房間收音的智慧音箱和電視機等遠場裝置。

近場裝置通常使用1-2個麥克風,遠場裝置則會用到3-8個,因為對後者的要求更多;例如到達麥克風的聲音會隨著使用者距離的增加變得更安靜,但背景雜訊則維持不變,同時還必須從牆壁和其他表面的反射(也稱為混響)中分離出直接語音訊號。

為了解決這些問題,遠場裝置採用稱為波束成形的技術。後者使用多個麥克風,並根據聲音到達個別麥克風的時間差計算聲源方向,以便過濾反射和其他聲音、只拾取使用者的聲音、追蹤其運動,並在有多人講話時放大正確的語音。

對智慧音箱而言另一個關鍵任務是辨識Alexa等「觸發」(trigger)詞。由於音箱一直在收音,故這種觸發辨識方法會引起隱私問題:亦即使用者的音訊即使不含觸發詞也會一直被上傳到雲端,其對Amazon或Google聽到全部對話會不會有所顧慮?比較可接受的方式是將觸發詞改為像「調高音量」(volume up)等常用指令一樣在裝置本身處理,而僅將使用者在其後所發出的複雜語音指令上傳到雲端。

最後,乾淨的語音樣本必須經過編碼,然後才發送到雲後端進行後續處理。

專用解決方案

上述說明可明顯指出前端語音處理必須能快速、準確的處理大量任務。對電池供電的裝置還必須盡量降低功耗,即使在隨時處於捕捉觸發詞的情況下亦然。

通用型數位訊號處理器(DSP)或微處理器無論是在成本、效能、尺寸還是功耗各方面都不太可能滿足這些需求;反之,具有專用音訊處理功能和最佳化軟體、針對個別應用的DSP可能才是更好的解決方案。採用已針對語音輸入進行最佳化的軟硬體解決方案還能降低開發成本、大幅縮短產品上市時間並降低總體成本。

舉例而言,CEVA ClearVox語音輸入處理演算法軟體套件就是其中之一。ClearVox適用於不同的聲學環境和麥克風配置,包括音箱的語音進入方向、多麥克風波束成形、雜訊抑制和迴波消除。經過最佳化的ClearVox可在CEVA聲音DSP上高效運行,是一個高本益比、高效能且低功耗的解決方案。

除了語音處理外,邊緣裝置還需要有檢測觸發詞的功能。CEVA WhisPro等專用解決方案是實現所需精度和低功耗的絕佳方法(如圖2)。WhisPro是基於神經網路、專用於CEVA DSP的語音辨識軟體套件,以便OEM在語音控制產品中添加語音啟動功能。WhisPro具備隨時收音的功能,但主處理器直到需要前會一直保持在睡眠狀態以大幅降低總系統功耗。

voice activation, CEVA

圖2:用語音處理和語音辨識進行語音啟動
(來源:CEVA)

WhisPro的辨識率可達95%以上,且可支援多個觸發短語及自訂的觸發詞。用過智慧音箱的人都知道要讓音箱對喚醒詞準確回應(特別是在嘈雜的環境)並非易事。消費者對語音控制產品品質高低的看法,極大程度取決於此一功能是否正常。

語音辨識:裝置本身或雲端

語音經過數位化處理後就需要進行某種自動的語音辨識(ASR)。ASR技術的範圍廣泛,從要求使用者說出特定關鍵字的簡單關鍵字檢測,到複雜的自然語言處理(NLP)都包含在內(使用者可與NLP裝置就像與人一樣正常對話)。

即使詞彙量非常有限,關鍵字檢測也有許多用途;例如簡單的智慧家庭裝置(像是電燈開關或恆溫器)可能只會回應「開」、「關」、「亮一點」、「暗一點」等指令。這種ASR可以在沒有Internet連接的情況下輕鬆的在裝置本身進行邊緣處理,以降低成本、確保快速回應並避免安全和隱私問題。

另一個例子是許多Android智慧型手機使用者可以說‘cheese’或‘smile’來拍照。在這種情況下不適合將指令發送到雲端(因為耗時太久),也不適合智慧型手錶或聽穿戴裝置(因為這類裝置不太可能隨時連網)。

另一方面,有許多應用需要NLP。如果想用Echo音箱查詢天氣或找晚上下榻的旅館,由於問題可用許多不同的方式表達,因此裝置需要能理解命令中可能存在的細微口語差異並準確解釋要求的內容;亦即裝置必須將語音轉換為含義,而非單純的文字。

以前面的查詢旅館為例,您的查詢範圍可能包括價格、地點、點評等各種條件,而NLP系統必須瞭解這些複雜性、問題的各種表達方式及查詢請求的模糊性;例如「找一家高性價比、市中心的旅館」對不同人可能有不同含義。查詢結果的正確與否還需要考慮問題的脈絡、辨識使用者後續提出的相關問題或單一查詢所要的多筆資訊。

這通常需要用人工智慧(AI)和神經網路進行大量處理,實務上也就不能只在邊緣裝置進行,因為配備嵌入式處理器的低價裝置不可能有足夠能力處理所需的作業。在這種情況下,正確的選擇是發送數位化語句在雲端進行處理,包括解釋內容後將適當的回應發送回語音控制裝置。

顯而易見的是您必須在裝置的邊緣處理和雲端遠程處理之間權衡取捨。在裝置本身處理全部內容可能會更快且無需連網,其代價是不適合處理較廣泛的問題和取得更多資訊;亦即對家用智慧音箱之類的通用裝置而言,有必要將至少一些處理推送到雲端。

為了解決雲端處理的缺點正在不斷開發裝置本身處理器的功能,預期裝置本身的NLP和AI可在不久的將來取得巨大進步。新技術正在減少所需的記憶體,並使處理器持續更快速、更省電。

例如,CEVA NeuPro低功耗AI處理器系列即可為邊緣裝置提供高階功能。CEVA以其電腦視覺的神經網路經驗,為該系列裝置的語音處理提供靈活、可擴展的解決方案。

結論

語音控制介面正快速成為日常生活的重要環節,且在不久的將來融入越來越多的產品。更好的訊號處理和語音辨識功能、更強大的終端和雲端運算資源正在推動進展。

為滿足OEM的要求,音訊處理和語音辨識組件在性能、成本和功率方面都面臨嚴峻的挑戰。對許多設計人員而言,針對手邊的任務進行專門最佳化的解決方案,會是滿足最終客戶需求並縮短上市時間的最佳手段。

無論基於何種技術,語音介面都將變得更加準確且更易於以日常語言進行對話,遑論其不斷下降的成本對製造商所產生的吸引力;對後續應用的瞭解足以挑起每個人的興趣。

(參考原文:How extensive signal processing chains make voice assistants ‘just work’,by Moshe Sheier)

掃描或點擊QR Code立即加入 “EETimes技術論壇” Line 群組 !

 EET-Line技術論壇-QR

發表評論