相較於Echo,最新的第二代Echo Dot的價格從89.99美元調整為49.99美元,並將於本月在美國上市銷售。

Amazon Echo(及其隨後推出的Dot)開闢了一個新的市場,讓裝置供應商能夠在語音擷取、提高麥克風音訊解析度、更先進的背景雜訊過濾、更好的音場偵測與穩定連線能力等方面展開競爭,以提供更佳音訊品質。

20161109 Amazon NT31P1 Amazon Echo (左)及其第二代產品Dot

而像XMOS等公司雖然自家晶片並未用於Echo中,但也瞄準了這個新的語音介面市場。XMOS行銷與業務發展副總裁Paul Neil表示,「物聯網目前正是一場快速移動的盛宴。為了控制IoT裝置,語音是最自然的使用者介面。」

Neil說,由於融合了「傳統的微控制器(MCU)性能、嵌入式DSP以及靈活的I/O組合,使得我們的技術成為語音介面的理想選擇。」

然而,硬體裝置之間的戰爭只是構成整個智慧麥克風/揚聲器市場的一部份。IHS Markit連網家庭資深分析師Paul Erickson強調,「真正的競爭變數來自雲端。」

為了追求更「聰明」的智慧麥克風(能夠處理複雜的查詢和隨機問題),雲端服務領域的競爭越來越激烈。 Google預計將於今年年底推出Google Home與Google Assistant (Google Now的新版本),並藉此進入這個市場。Erickson表示,「而且市場上盛傳蘋果(Apple)很可能將在2017年挾其Siri進入這個領域。」

Amazon Echo——這款IoT裝置如此熱門的另一個原因在於它極具潛力,可實現IoT的重要優點:經得起時間考驗(Future-proofing)。

芯科科技(Silicon Labs)軟體副總裁Skip Ashton解釋,Future-proofing的意思是「確保裝置可隨時間進展持續添加更多功能特性。」例如,Alexa為Echo提供的語音服務功能一開始有70種,如今已經增加到超過1,700種了。

Echo可以回答問題、閱讀新聞、為運動評分、控制燈光、從Amazon網站訂購產品以及設定鬧鈴等。使用者還可以利用該裝置向Uber叫車或訂購披薩外送等。

「目前Echo大約每兩週透過雲端更新一次,」Ashton說,「Amazon會在星期五時發送電子郵件給Echo用戶發佈新功能, 」而Echo用戶「也對於產品的功能持續增加懷抱著期待。」

本地智慧

IHS Markit嵌入式處理器首席分析師Tom Hackenberg剖析Amazon Echo對於電子產業帶來重大影響的原因:智慧麥克風/智慧揚聲器應用「對於處理器供應商來說極具價值。」

因為這種裝置關鍵之處並不只是提供了「本地智慧」。語音介面正普遍應用在廣大的市場領域。不只是數位助理市場出現,成為智慧型手機App的消費電子裝置版本,還有揚聲器,也不是它唯一的外形應用。

例如,他解釋說,「家庭自動化中心和數位助理可以內建於電視、機上盒(STB)、HVAC/環境控制中樞等等。此外,在車載資訊娛樂方面也存在大量的應用,特別是著眼於其免手持的優點。」

拆解Echo與Echo Dot

透過拆解Echo與Echo Dot並進一步比較後,Hackenberg說,「除了記憶體供應商,我發現Echo和Echo Dot的處理元件並沒有明顯的不同。」

20161109 Amazon NT31P2 拆解Echo與Echo Dot (來源:iFixit)

根據iFixit所進行的拆解,Amazon Echo採用:

  • 三星(Samsung) K4X2G323PD-8GD8 256MB LPDDR1 RAM (揮發性記憶體)
  • SanDisk SDIN7DP2-4G 4GB iNAND Ultra Flash (非揮發性儲存)

而到了新版的Dot則改用:

  • 美光(Micron) MT46H64M32LFBQ 256MB (16Meg x 32 x 4Banks) LPDDR SDRAM (揮發性記憶體)
  • 三星KLM4G1FEPD 4GB高性能eMMC NAND Flash (非揮發性儲存)

兩款產品使用的處理器則是相同的。在Echo與Dot的核心採用的是「德州儀器(Texas Instruments;TI)的媒體處理器DM3725」,此外,高通(Qualcomm) Atheros QCA6234應用專用標準處理器則用於提供「連接性」。

Hackenberg解釋說,雖然記憶體可能稍微影響性能,但記憶體定價是波動的。因此,對於Echo系列的所有產品而言,在其整個生命週期中改變所使用的元件也很平常。

相形之下,「連線模組,尤其是媒體處理器更加複雜,如果不是重大的產品更新,一般並不會改變,」他說。

Hackenberg指出,Atheros處理器專用於作為連接應用標準產品。其設計是以Tensilica客製化XTensa核心為基礎,而且「它只做一件事——協調與網路的通訊,以利作業進行。」

Erickson補充說,「連接能力至關重要,因為它涉及哪些資料可被擷取、傳送與接收雲端資料的速度與可靠度等。由於速度/響應的可用性因素,它直接影響到與揚聲器之間的互動有多麼「即時」。因此,Wi-Fi的吞吐量、服務品質(QoS)與範圍的改善,都將有所幫助。」

所有的「本地」(local)智慧功能是由TI DM3725進行處理。Hackenberg指出,「這是一款專為STB、TV、顯示器、視訊遊戲系統等各種多媒體應用而設計的系統單晶片(SoC)。」

DM3725是一款以ARM Cortex A8為基礎打造的元件,並整合TI的C64x+DSP與3D繪圖加速引擎。「Cortex A8是一款成熟且經濟型的應用處理器,但又完全足夠用於本地執行簡單的任務,」Hackenberg表示。

然而,「如果應用變得複雜,而不只是一款揚聲器這麼單純,可能就會有所變化。」

20161109 Amazon NT31P3 20161109 Amazon NT31P4 Amazon Echo Dot主板 (來源:iFixit)

整合DSP

根據Hackenberg,這顆SoC的關鍵就在於整合了DSP,甚至可能是GPU。

「在一個典型的設計中,存在多個輸入感測器(主要是麥克風)。整個音訊輸入首先經DSP高度濾波,使系統快速地理解用戶的語音和環境雜訊之間的差異,」他說。

「它甚至能夠解讀相對於該裝置的位置或甚至發話者是誰;它還建立了一種模式,能夠經過處理以匹配該模式(通常發送至雲端),」他補充說。

但是,GPU做什麼呢?

Hackenberg認為,「對於本地智慧,GPU可以用於更簡單、但快速且高效的本地模式匹配。」

這可以讓裝置仍然回應所儲存的控制模式,例如「降低音量」、「切換頻道」或其他簡單的控制,而無需網路連接,他解釋說。 「接著,應用核心根據所需提供的回應、啟動/關閉所需的輸入或控制以及必須顯示的內容等條件來執行應用程式。」

麥克風陣列

Amazon Echo和Dot之所以吸引人之處在於它使用了7麥克風陣列。Amazon聲稱,Echo和Dot由於使用了多支麥克風和波束成型技術,因而「能在整個室內都聽到你的聲音——即使是正在播放音樂的環境下。」該公司還表示,Echo是一款專業級的調音揚聲器,能以360°沉浸式音效充滿在整個房間中。

根據IHS Markit負責MEMS和感測器的資深分析師Marwan Boustany表示,Echo採用了樓氏電子(Knowles)的MEMS麥克風。

20161109 Amazon NT31P5 Dot採用7支麥克風陣列

Boustany指出,為聲音頻率提升其訊號雜訊比(SNR)、匹配和性能,將有助於遠場音訊擷取,同時改善語音辨識。

但最終,「演算法才是實現更優質語音辨識的真正關鍵,」他說,「所謂的『智慧』就在於雲端可能持續作為關鍵應用,而本地處理則可以提高對於簡單/預定義片語(如Hey Siri等)的辨識能力。」

他以Cypheras為例表示,「這一類的軟體供應商將有利於智慧家庭系統(如Alexa)中的語音辨識功能。」

20161109 Amazon NT31P6 Amazon Echo Dot (來源:iFixit)

競爭日益加劇

以供應商來看,目前有幾家提供微控制器(MCU)和連接用ASSP的供應商可能在此領域展開競爭,包括Apple、博通(Broadcom)、賽普拉斯(Cypress)、微芯科技(Microchip)、恩智浦(NXP)、瑞薩(Renesas)、意法半導體(STMicroelectronics)以及芯科科技(Silicon Labs)等。Boustany表示,」802.11n與BT 4.0的組合並不常見,但有些設計針對較低成本的解決方案或許將會只用藍牙。

媒體處理器較為棘手。雖然多家行動裝置應用處理器供應商都可提供,但對於簡單的應用來說成本太高。根據Hackenberg的觀察,供應商們可能會選擇不提供性能相當的DSP或模式匹配功能。

「我可能會考慮採用Apple Ax、Broadcom BCM7xxxx、海思(Hisilicon) Hi3xxx、NXP i.MX、聯發科MT8xxx、意法STiHxxx、高通(Qualcomm)Snapdragon等。當然,TI或許在成本方面具有最佳DSP支援(對於語音辨識至關重要)的優勢,但其他的這幾家供應商也在不斷地縮小差距中。」

XMOS相信該公司將在這個市場上獲得動能。對於諸如Echo這一類的語音助理產品,提高性能的關鍵在於遠場語音擷取能力、波束成型與處理速度等。Neil認為,「憑藉著大量的處理能力和嵌入式DSP,我們的XMOS單晶片元件提供了可擴展和差異化的解決方案。」

20161109 Amazon NT31P7 XMOS xCore語音介面案例 (來源:XMOS)

編譯:Susan Hong

(參考原文:Amazon Echo & How It Resonates,by Junko Yoshida)