在人機介面的歷史中,語音控制可能被視為最重要的里程碑。無需打字、按滑鼠,只要開口就能完成所要的動作。在我們開始意識到各種可能性前,語音控制一直跌跌撞撞前行,直到智慧音箱出現。

今天,這方面的競爭快速出現於手機、耳機、助聽設備,和智慧家居的辨識、功能和應用的改進。目前最廣為人知的解決方案依賴於由少數供應商控制的平台和服務,但這種情況正在發生變化,語音控制可以內建於任何裝置,同時具有自訂功能、更佳的抗噪性、更低的功率、更長的範圍,並且與大型語音辨識平台一樣有效。

由語音控制扮演重要角色的消費者音訊市場歷史悠久。FutureSource的調查顯示,由於音訊體驗轉到智慧型手機,此一市場的銷售額從2008年到2012年持續下滑,從2012年到2014年基本上持平,而從2015年到2018年,受惠於語音控制則以15%的複合年增率成長。Yole Développement預計市場會以至少30%的複合年增率成長到2023年(主要得益於語音辨識)。此一成長的大部分將繼續集中於智慧型手機,其次是耳機和助聽器、個人助理和智慧家居,例如電視和電氣用品。該報告認為,我們正進入智慧型音訊的第二階段,隨著消費者對這種控制方法越來越熟悉,語音控制將變得越來越普遍。

無論部署於任何裝置,語音控制的目標都是加強差異化。在智慧型手機或任何其他電池供電的設備中,一個明顯的優勢是支持隨時線上聆聽,以及免按鈕發出指令。這需要超低功耗觸發字偵檢,亦即緊密配合的軟硬體,以盡量降低待機功耗。各品牌當然都希望具有個人化的多語言觸發詞或短語,以便在地區,以及國際市場中獲得強大的滲透力。你仍然可以——也可以不——將後續命令傳遞給主要的語音辨識者進行解聚。如果設備僅需要支持有限的詞彙,只要語音辨識引擎足可達成該目標,就無需求助於第三方。

另一個關鍵性需求是在嘈雜的環境進行辨識和認證。語音辨識與實物辨識各有不同的挑戰。例如,在客廳或車內會有多個聲源:語音、電視、和獨立的音樂/廣播聲源、室內外噪音,以及房間或汽車內裝表面的迴聲。隔離命令的來源、消除迴聲、和降低背景噪聲。這需要取決於多麥克風、波束成形和迴聲消除,以及噪聲抑制的複雜的技術。

針對這些需求,CEVA及其他廠商已準備好滿足這些需求的解決方案,例如最近推出的CEVA WhisPro短語辨識產品的解決方案(使用在CEVA DSP平台上運行的神經網路的軟體)。WhisPro刻下支援「Alexa」和「OK Google」語音觸發器,且可藉由自我訓練進行自定義,以支持任何客戶請求的觸發器。WhisPro支持多種語言、可處理多個語音觸發器、可在多個噪聲背景下進行訓練、辨識具有內建的抗噪性、辨識率超過95%、每小時的誤判率低於1次、且無需進行雲端驗證。

開發人員可以外加特殊語音拾取解決方案於CEVA ClearVox,完成多麥克風支持和波束成形,以改善遠場語音拾取、迴聲消除和進一步降低噪聲。將WhisPro與ClearVox配對後,可在長達7公尺的距離內提供有競爭力的觸發辨識,尤以在嘈雜的環境中為然。