一直以來我們熟悉的「人機介面」都是著重於視覺──我們與機器之間的互動主要是透過功能選單、圖形化介面,需要眼、手並用,透過操作遙控器或是觸控螢幕,才能順利對機器下指令,啟動正確的功能;儘管已經習慣這樣的模式,這與人類所追求的「直觀介面」仍然相去甚遠,而隨著語音辨識、音訊技術的不斷演進,現在我們只要開口就能與機器溝通。

從內建於蘋果(Apple)作業系統iOS的語音助理軟體Siri,到近兩年來蔚為風潮、由亞馬遜(Amazon)推出的Echo智慧喇叭(smart speaker)所帶動的各種智慧語音助理裝置,新一代的電子裝置不但能聽得懂人類指令啟動相對應的正確功能,結合雲端的人工智慧(AI)與機器學習等技術,它們甚至能主動提醒日常生活重要事項,或是陪著人們聊天解悶。

對全球智慧家庭市場有多年深刻觀察的Dialog Semiconductor產品行銷經理同偉,在今年台北國際電腦展(Computex 2017)期間接受媒體團訪時就表示,他認為語音介面將為智慧家庭領域帶來全新的面貌,以往智慧家庭很大的一個問題就在於功能操作上不方便,而AI將改變人機互動的模式;美高森美(Microsemi)語音業務部門行銷暨應用總監Shahin Sedeghi也認為,未來在智慧家庭應用情境中,人們不再需要用手觸碰任何開關或螢幕。

Sedeghi引述市場研究機構ABI Research在2016年發佈的預測報告指出,估計到2022年,支援語音控制的裝置出貨量將達到7,500萬台,其中智慧喇叭/數位語音助理將佔據其中的三分之二(約4,700萬台),而預期Amazon (Alexa)與Google的智慧語音助理軟體會成為市場主流;他並認為智慧語音助理市場的主要推手,會是支援較複雜語音控制指令的電視機/機上盒(STB)以及智慧喇叭。

20170707_Voice_NT31P1 ABI Research預測,到2022年,全球語音控制裝置出貨量將達7,500萬台

台灣音訊晶片設計大廠瑞昱(Realtek)在Computex 2017期間就展示了結合Google語音助理功能的機上盒與電視機解決方案;藉由語音指令,使用者在搜尋線上內容或是本地儲存影音檔案時,不必再透過遙控器操作層層疊疊的功能選單或是費力輸入搜尋關鍵字,而是只要對著電視機/機上盒說出想看的頻道或是影片、節目名稱,就能找到相對應的內容。

20170707_Voice_NT31P2 瑞昱在Computex展示支援語音控制介面的機上盒與電視機

軟體以及雲端服務可說是智慧語音助理應用的靈魂所在,但智慧語音助理裝置硬體性能的優劣,也對於語音控制介面的表現至關重要,機器必須要能清楚地聽見、聽懂使用者發出的語音指令;而在這方面扮演要角的,就是收音麥克風以及音訊處理器。

以Amazon智慧喇叭Echo為例,該裝置採用以7個MEMS麥克風組成的陣列,以支援更高品質的收音;而Microsemi的Timberwolf系列音訊處理器(ZL38063)則是能支援多麥克風陣列智慧語音助理裝置的方案,搭配其AcuEdge韌體,支援波束成形、指向性收音以及降低雜訊等功能,號稱能實現360度的收音以及5公尺以上的語音辨識,即使是在同時播放音樂的情況下也能清楚聽見觸發關鍵字(例如:Alexa),然後中斷音樂執行語音指令。

總之隨著語音控制技術不斷演進,我們已經能用自然的說話方式跟機器互動,但對於已經習慣了傳統人機介面的大多數人來說,可能需要先克服的是「開口問機器問題」的心理障礙──就像很多人打電話一聽到那頭是答錄機或是語音信箱就會不知所措──能不彆扭地與機器順暢溝通,或許會是我們迎接未來世界得先學習的一門「技能」?