市調公司Gartner曾經在兩年前預測,2018年所有與技術相關的人機互動中,大約有30%都來自與語音系統的對話。不久前。RBC Capital Markets的分析師也預期,亞馬遜(Amazon)的Alexa智慧語音助理將在2020年前達到100億美元的銷售額。

語音辨識是去年國際消費電子展(CES)的熱門話題,許多評論家認為2017年將是語音辨識年。Gartner並指出,包括語音辨識功能的對話平台將成為2018年前十大策略技術趨勢之一。語音辨識預計將推動系統的典範轉移,不僅更能回答簡單的問題,例如「天氣如何?」同時還實現了越來越複雜的互動。對話平台之間的主要區別在於其對話模型的穩健性、應用程式介面(API),以及用於存取、啟用和編排第三方服務以提供複雜結果的事件模型。

因此,語音辨識技術正不斷發展以滿足這一需求,而投資人也看到了這個機會。例如英國的XMOS,以及卡米人工智慧(Kami Intelligence Limited)等公司最近幾個月都獲得了融資。XMOS去年9月從英飛凌(Infineon Technologies)、Amadeus Capital Partners、Draper Esprit、Foundation Capital和Robert Bosch Venture Capital募資了1,500萬美元。

位於倫敦和香港的Kami則在上個月從ARM創新生態加速器(Arm Innovation Ecosystem Accelerator;Softbank子公司)、香港X科技基金(X Technology Fund)和天富基金(Tin Fu Fund)等籌資170萬美元的種子基金。

XMOS去年初推出首款遠場語音處理器系列——XVF3000及其相關開發套件。該公司聲稱是唯一一家獲得亞馬遜AVS認證的遠程線性麥克風陣列開發套件供應商,能夠將亞馬遜的Alexa輕鬆地整合於智慧面板、廚房電器以及其他商業和工業電子設備。

20180207_Voice_NT31P1 XMOS最新語音處理器VocalFusion XVF3500在今年CES亮相(來源:XMOS)

在CES 2018,XMOS進一步展示其最新語音處理器,該處理器支援立體聲聲學回音消除(AEC)和遠場線性麥克風陣列解決方案。XVF3500語音處理器可提供雙通道全雙工聲學回音消除功能,專為開發語音啟動的智慧電視、家庭劇院、機上盒(STB)和數位媒體配接器等市場的開發人員而設計,這些成長中的市場與應用都需要立體聲AEC支援「整個室內」的語音介面解決方案。該解決方案還支援可配置的AEC延遲,能夠精確校準AEC參考訊號並調整延遲,從而為現有的消費電子產品提供售後遠場語音配件。

即使是在複雜的聲學環境,該解決方案也能透過雲端語音辨識系統處理,準確地在整個室內擷取指令。XVF3500語音處理器提供複雜的語音數位訊號處理(DSP)——包括具有語音干擾功能的全雙工聲學回音消除器、讓用戶能夠中斷或暫停正在播放音樂的裝置,以及追隨揚聲器的自適應波束形成器。即使是在嘈雜的環境中,更先進的去混響、自動增益控制以及雜訊抑制功能,也能提供清晰的語音互動體驗。

新一代可信任對話AI平台

專精於生產桌上型PC、筆記型電腦、平板電腦、智慧型手機、寬頻、無線系統、遊戲機、連網設備、STB等消費電子產品的和碩聯合科技(Pegatron Corp.)最近宣佈在其最新智慧語音助理產品Martina中採用XMOS VocalFusion語音技術。Martina是和碩科技人工智慧(AI)產品解決方案的一部份,採用了Google雲端服務與自然語言辨識技術,可支援中文、英文、日文與韓文等。

和碩資深總監Joe Wu表示:「XMOS解決方案由於其卓越的遠場語音技術而被選用於我們的智慧語音助理。Martina具有跨平台的相容性和語音驅動的用戶介面,能夠使用簡單的語音命令連接和控制各種設備和服務。」

內建XVF3000語音處理器的和碩智慧語音助理Martina

新創公司Kami則開發出使用神經網路和機器學習演算法的下一代可信任對話AI平台。其目標在於透過對話學習和建立知識、記住個人並自然地進行交流。其專利技術結合了神經網路和機器學習演算法。

Kami的種子輪投資方AIEA策略務發總監陳向軍說:「Kami開發出一款真正強大的推理平台,擁有超強的記憶和情緒關注分析能力。其專利的外部動態記憶網路技術和關注分析技術大幅地提高了對話情境追蹤和系統推理的能力。Kami獨特的後設語言夠透過分析情境和推理,跨多種不同的業務場景做出決策。」

Kami的產品包括Kami Relate和Kami Analytics。Kami Relate提供情境對話,因而能夠記住客戶說的話、理解內在的含義並且在架構之間自然地變換——就像與真人一樣交談。此外,它還支援文本和語音,並與Facebook Messenger、Skype、Kik、Slack和Wechat等主要的即時傳訊通道無縫整合。該架構並支援多種語言,節省了全球部署的時間和資源。

Kami Analytics透過言語和行動、創建模板並執行同類群組分析來區分用戶,並透過持續的用戶互動過程和語音最佳化,從而提高用戶的參與度、持續率以及對話,並為A/B測試提供可讓聊天機器人的效率最佳化的平台。在開發時透過軟體開發套件(SDK)和「隨插即用」模組即可整合行動應用。

隨著亞馬遜和Google積極推動語音家用裝置,如今有一點是確定的:更加準確的語音辨識技術將繼續發展,並將進一步推動平台實現更複雜的人機對話,以及超越這些家庭裝置以外的用戶介面。

編譯:Susan Hong

(參考原文:Voice Recognition to Drive More 'Conversational' Platforms,by Nitin Dahad)