在今年的國際消費電子展(CES 2018)上,語音(voice)、連接(connectivity)和人工智慧(AI)成為最受關注的焦點。如果說今年的CES能為我們帶來什麼指標,那麼這三項建構模組將是組成2018年及未來消費電子裝置缺一不可的神聖「三位一體」。

語音助理已經準備好進入穿戴式裝置、耳機、嬰兒監視器、燈具、電視遙控器和車輛。DSP Concepts創辦人兼技術長Paul Beckmann在接受《EE Times》訪問時說:「我們似乎正見證著一場圍繞著語音的『寒武紀大爆發』。」

PaulBeckman

DSP Concepts技術長Paul Beckmann

在CES上,被稱為「中國Google」的百度大力向開發商展示並開放其基於Duer OS的平台。無論是其聲控檯燈或掛在天花板上的投影機和螢幕,都不需要Alexa或Google Assistant。就像百度常掛在嘴邊的「中國速度」,越來越多的廠商開始朝向語音發展。

20180115_CES_NT01P1 百度展示了一款整合檯燈功能的聲控智慧喇叭(來源:Baidu)

消費裝置必須具備連接能力已經是不爭的事實。Silicon Labs執行長Tyson Tuttle強調,接下來的必備功能是「混搭」不同的無線網路。他解釋說,直接將原本為智慧型手機設計的連接晶片加進物聯網(IoT)裝置,已經無法滿足要求了。系統需要動態的多協議軟體,以及為不同的無線網路劃分時間的能力。

儘管AI在高度自動化汽車中佔據主導地位,但Ceva執行長Gideon Wertheizer告訴我們:「我看到AI開始擺脫幻想世界。」供應商如今正試著「設置參數,在隨機環境中使用AI來解決特定問題。」

GideonWertheizer_120

Ceva執行長Gideon Wertheizer

換句話說,許多公司開始學習在小規模應用中導入AI,並將其用於特定任務,而非依靠AI來解決世界上的問題。」

語音隨車上路

無論是在家庭或開車行駛中,語音都將至關重要。

博世(Robert Bosch)在CES宣佈計劃將其語音助理設計在方向盤後方。博世管理董事會成員Dirk Hoheisel表示:「我們正致力於讓駕駛艙內的按鈕亂象劃下句點。」Elektrobit在CES上承諾,該公司將成為亞馬遜(Amazon) Alexa的第一批汽車軟體整合商之一。

20180115_CES_NT01P2 Bosch開發「自然語言」車內語音輔助系統(來源:Bosch)

百度宣佈其基於Duer OS的Apollo 2.0平台被稱為「自動駕駛車的Android」,並稱語音輔助系統將成為該平台的一部份。百度總裁兼COO陸奇表示:「家庭與車輛之間已經不存在界限了。無論你在家中做什麼,應該也都可以在車子裡實現。」

Wertheizer則指出,無論是在家中還是車內,隔離聲音以及直接向雲端發送清晰的訊號都非常困難。 「我們的週遭充斥著噪音和雜訊。」很自然地,家庭和汽車的解決方案必須能夠因應一連串完全不同的嘈雜環境。

語音演算法缺少標準

讓問題變得更複雜的原因在於業界還沒有任何標準的語音演算法。Wertheizer表示:「每一家公司都有自家處理語音的專有演算法。」

系統業者開始求助於學術界發表的技術論文,競相找出如何最有效隔離語音的解決之道。而當他們使用不同的麥克風和揚聲器類型時,還必須最佳化其演算法,以因應不同的設置要求。

而在Ceva,Wertheizer說:「我們必須建立一個類似原子庇護所的工作室」,用於研究所有的選擇,並開發波束成形、遠場和近場、迴聲消除和環境降噪等演算法。

Beckman也呼應了這個觀點。就像人們喜歡語音作為自然的用戶介面一樣,他說:「遺憾的是,對於實際執行的產品設計人員來說,它是最具挑戰的技術之一。」他已經看到了太多的語音專案出錯了,最終得回到草圖階段重新開始。

Beckman曾經在Bose Corp.擔任研究工程師長達9年,在2000年初成立了他的諮詢業務。當他與客戶討論語音專案時,他發現業界需要一套有效執行的「完整軟體解決方案,以及能為其實現差異化的底層技術」。但是,最主要的關鍵在於賦予其能夠自行調整系統的能力。

隨著語音市場爆發,Beckman的業務也隨之成長。DSP Concepts不再只是一家諮詢公司,現在還提供了一套完整的演算法作為軟體庫和除錯工具,有助於客戶調整系統。Beckman說:「我們提供調整、整合和驗證工具。」

20180115_CES_NT01P3 語音UI解決方案需要一套完整的演算法(來源:DSP Concepts)

DSP Concepts的語音使用者介面(UI)技術稱為Audio Weaver,它是第一家獲得亞馬遜Alexa產品認證的第三方軟體公司。DSP Concepts共同創辦人兼執行長Chin Beckmann展示一款Audio Weaver語音助理產品——相較於亞馬遜Echo使用了7支麥克風,Audio Weaver僅用了2支麥克風,據稱就能夠「聽」得比Echo或Google Home更清楚。

在邊緣實現AI運算

Wertheizer說,隔離語音是第一步,但接下來還有其他步驟:語音助理需要辨識語音的位置,還要能追蹤語音。而且,它必須能夠偵測以及辨識誰在房間裡說話。

直到最近,雲端才剛被認為是處理和學習的地方。如今,這個假設將在2018年發生改變。

Wertheizer解釋說:「我看到人們對於AI的態度越來越務實。他們希望在邊緣裝置執行AI而非在雲端進行,以避免隱私、延遲和成本等問題。」

聯發科技(MedaTek)財務長顧大為對此表示認同。相較於亞馬遜在其Echo裝置中推動雲端到雲端的服務,聯發科看到了「邊緣和雲端」融合模式的可能性。他在CES時告訴我們,語音助理競賽如今已經著重於在本地增加「智慧」、區別人類與非人類的聲音分開、消除背景音樂、辨識聲音模式等。

20180115_CES_NT01P4 Petcube Wi-Fi寵物照相在遠端進行機監測並與寵物互動(來源:Petcube)

Wertheizer說:「以Petcube設計的互動式Wi-Fi寵物相機為例,它能在主人不在家時,透過雙向音訊和1080p高解析(HD)視訊攝影機進行監控,以及與狗或貓互動。Wertheizer說:「我不確定Petcube是否意識到這是一家物聯網公司。但是,像這樣的連網產品中,語音辨識系統顯然必須能夠辨識狗吠聲,並且確定狗是處於壓力還是處於危機之中。換句話說,系統需要有智慧才能進行學習。」

Neupro低功耗AI處理器

雖然Ceva為語音系統的設計者提供了名為ClearVox的語音演算法,但它也知道系統廠商需要的更多。系統製造商希望在其物聯網裝置中整合學習和推論的能力,使其產品能夠持續變得更加智慧化。

目前的市場上亟需AI處理器。為了滿足這一需求,Ceva在CES上推出了NeuPro,這是一款「專用的低功耗AI處理器系列,用於在邊緣進行深度學習」。NeuPro是一款獨立的專用AI處理器,可廣泛用於物聯網、智慧型手機、安全監控、汽車、機器人、醫療和工業等市場。

20180115_CES_NT01P5 Ceva推出AI處理器(來源:Ceva)

值得注意的是,Ceva並非深度學習領域的新手。據報導,NeuPro是以Ceva在電腦視覺應用深層神經網路方面的經驗為基礎。

Wertheizer說,NeuPro AI處理器是Ceva從頭開始研發的第一款「非DSP」技術。他在發佈Neupro時說:「我有點緊張。但是你必須知道AI並不是訊號處理方面的問題。」

NeuPro處理器搭載兩個硬體——NeuPro引擎和NeuPro VPU (向量處理單元)。Wertheizer指出,雖然引擎處理定義良好的人工智慧演算法,如CNN、啟動和規範層,但是,可編程的向量引擎NeuPro VPU是執行專有AI演算法的一種延伸。「我們選擇了這種硬連線的建置方式,而不是使用GPU或CPU,讓我們能夠增加AI處理器的利用率。」

Ceva聲稱,這款新的專用AI處理器系列帶來了「相當高的性能提升,從入門級處理器的2TOPS到為最高階配置的12.5TOPS」。

20180115_CES_NT01P6 NeuPro硬體模組;Ceva執行長Gideon Wertheizer強調,「NeuPro VPU和NeuPro引擎之間的無縫切換至關重要,」。 (來源:Ceva)

Ceva表示,NeuPro AI處理器將於2018年第二季向客戶提供授權,並計劃在第三季全面發佈。

同樣地,聯發科準備推出一款由意騰科技(Intelligo Technology)設計的AI處理器和演算法。Intelligo是2016年時從聯發科獨立而出的新創公司。

Intelligo設計的這款AI SoC被稱為「智慧DNN語音處理器」應用範圍較有限。聯發科表示,該處理器提供「可配置的深度神經網路和高效率推論引擎(每秒每瓦特1 TOPS運算性能)。

顧大為表示,聯發科正在尋找一種小型的AI加速器,為辨識20到30個關鍵字而設計。另一方面,聯發科也正推廣其「分散式處理」的觀念,期望語音和AI功能不只是整合於像Echo或Google Home的智慧音箱,而是更落實於廣泛的小型裝置——如電燈開關。

編譯:Susan Hong

(參考原文:Voice and AI Explosion Rocks CES,by Junko Yoshida)