在今年1月舉行的國際消費性電子展(CES)上,當媒體看到高通(Qualcomm)展示了在其車內Smart Audio平台上的Amazon Alexa語音辨識功能,就對未來發展有了一些想像。高通的展示預示,車內虛擬助理將會使得語音成為駕駛人與車輛之間的自然溝通介面。

高通的展示中最令人印象深刻的一幕,是Alexa在高通的某個高層說話時打斷他,說:「不對!這不是真的。」歐喔…在展示中發生這種小「突槌」事件在所難免;而且另一方面,目前的商用語音處理系統也會發生這種語音處理失誤。

語音辨識系統通常辨識度不佳,特別是在吵雜的環境中;車內就是一個非常吵雜的環境。來自以色列的新創公司Hi Auto執行長暨共同創辦人Roy Baharav在接受EE Times訪問時就指出:「你可以想像坐後座的小孩們在吵鬧、救護車從旁邊呼嘯而過,還有大雨打在車頂上…」

為了消除噪音以及改善車內語音辨識的可靠度,Hi Auto開發了一種視覺語音(audio-visual)解決方案,利用了面對駕駛人的攝影機以及單個麥克風,以深度學習演算法追蹤嘴唇運動,這種整合式的「視覺語音」解決方案會鎖定駕駛人,同時清除其他麥克風與噪音。

而預期的輸出則是「乾淨的音訊」,Hi Auto聲稱如此能實現更準確的語音辨識以及清晰的對話;該公司的計畫是提供「只有軟體」、不搭配特定硬體的系統。

車內語音辨識

語音輸入可望成為終極語音介面,但也只是「可望」;今日的語音輸入技術相對較新,對很多人來說,跟一個沒有生命的物體交談還是感覺很怪。所以如何養成人們在車內使用語音控制介面的習慣?畢竟Hi Auto的成功取決於語音控制普及性,特別是在汽車產業。

對此Baharav表示:「在很多高階車款中,語音控制已經被廣泛採用,而且這種技術也漸漸滲透到大眾車款;」這種趨勢得益於支援語音控制介面的車用資通訊娛樂系統越來越受歡迎。而且他認為,車內資通訊娛樂系統的語音助理不只有娛樂功能,「將負責關鍵任務。」

Baharav進一步解釋,首先透過可視介面控制的各種車內裝置功能,已經變成駕駛人分心的原因之一;其次,汽車產業正面臨越來越嚴格的安全法規;第三,已經習慣在家裡使用Amazon Echo或是Google Home等語音助理的消費者,也在尋求車用的類似方案。

20191101_VoiceAssistantInCar_NT01P1

根據市場分析機構voicebot.ai的2019年最新調查,美國有60%消費者在購車時會將語音助理系統做為考量條件之一。
(來源:Voicebot.ai)

而且Hi Auto也不是唯一看好「會說話的車子」的公司;Baharav估計,目前該市場上約有5億美元規模,成長也非常快速。他舉例指出,已經在該市場上經營一段時間的、從語音識別業者Nuance獨立而出的Cerence,就被認為一年的營收達到3億美元;還有一家公司SoundHound在市場上的版圖也持續擴張。

分析師預期,透過語音助理衍生的商業與廣告收入將在2025年達到200億美元,而且車用將會是主要的貢獻者之一。而根據Baharav觀察,對汽車產業來說更重要的是,車廠將車用資通訊娛樂系統的差異化視為打品牌的關鍵,因此這是一個可利用的好機會。

Baharav解釋:「隨著語音控制變得越來越重要(Google預期2020年有五成的線上搜尋是透過語音),車廠也覺得他們必須要支援這種介面;」如果有人忽略了快速成長的語音搜尋市場發展趨勢,會有被淘汰的危險。

語音控制能用在關鍵任務?

語音控制最立即性的應用是車用資通訊裝置介面,駕駛人能以語音指令完成打電話、發簡訊、播放多媒體,或是導航等等功能。還有什麼其他需要跟車子說話的理由嗎?

Baharav表示:「想像一下共乘車還有家庭用車;」當車內有不只一個的資通訊娛樂系統需要控制,而且要一次處理好幾個語音指令,高品質的車內語音技術會變得非常重要。此外隨著先進駕駛輔助系統(ADAS)功能越來越多樣化,他預見未來駕駛人可以出聲指揮車子變換車道、超車,或者是停進某個停車格,而且其可靠度以及抗噪音的能力會讓人驚豔。

推動創新的基本力量,來自於車廠對於牢牢掌握數位體驗方案的渴望;但並非讓駕駛人習慣CarPlay、Android Auto,而是希望消費者使用車廠自家的車用資通訊娛樂系統(IVI)。Baharav指出,在這種情況下,車廠們將會提供原廠內建、使用者友善的IVI,而且支援熱門的音樂串流、數位廣播或即時通訊應用程式。

他補充指出,對車廠來說,更重要的是「將IVI與自家開發的地圖軟體、廣播、通話/簡訊支援、車身控制、ADAS互動,還有涉及其他車身硬體的軟體程式結合;」隨著這些車內應用程式不斷增生,車廠必須要具備至少能與Google Assistant與Siri媲美的語音控制技術。

很遺憾的是,「目前個別解決方案在語音助理品質方面仍嫌不足,特別是在吵雜的環境中;」Hi Auto期望能藉由針對車內環境永恆存在的瞬間吵雜問題、還有人們習慣在車內交談的情況提出解決方案來讓自己與眾不同:「我們必須確保車子聽清楚駕駛人說什麼。」

若是車內語音控制指令失效…

Hi Auto的明確目標是,藉由改善語音分離(speaker separation)以及強化語音辨識,在車用語音控制市場佔據一席之地。我們詢問了Baharav目前的智慧型手機或智慧揚聲器在噪音消除能力上不足的幾個應用場景。

例如一個爸爸駕駛休旅車載女兒們還有她們的朋友們一起去練足球,他注意到汽油快沒了,不過他們在高速公路上,需要改變導航的方向。他不想花太多時間滑觸控螢幕去找加油站,但是車子裡的噪音太大了(很多小孩在嘰嘰喳喳),車子聽不清楚爸爸的指令。

Baharav表示:「這種情況無法以最先進的指向性麥克風來解決,因為孩子們坐在爸爸後面;而噪音消除也無法解決這個噪音,因為並非靜態的,無法學習並消除。」

另一個例子是,一位女性駕駛在大雷雨中開車上高速公路要去上班;在雷鳴閃電中,車子的報器響了,暖氣的風扇已經開到最大。她想告訴同事她上班會遲到,但發簡訊太危險,所以她對著車內系統用講的,但系統的反應卻一直是:「抱歉,請說大聲點…」

Baharav表示,這個情況也無法用最先進的指向麥克風來解決,因為噪音來自四面八方。噪音消除也無法解決噪音,因為這同樣非靜態,無法學習並消除(瞬間噪音)。

Hi Auto近日解除了隱身模式,完成450萬美元的種子輪募資,由一家以色列汽車進口商Delek Motors以及其現任董事長Zohar Zisapel主導。其他投資人還包括運輸業者Allied Holdings、Goldbell Group與Plug & Play。

這家新創公司預計用種子資金完成第一款產品的開發,並展開銷售與擴充團隊;Hi Auto表示,已經汽車業界領導廠商安排在2020年初測試其技術。在2020年的CES展之後,Hi Auto打算以軟體開發套件(SDK)的形式推出車內語音解決方案,透過簡單的授權方式,或是以軟體即服務(SaaS)的模式提供雲端API。

編譯:Judith Cheng

(參考原文:'Be quiet for a sec? I'm trying to talk to the car.',by Junko Yoshida)