自2011年Siri推出至今,語音助理設備已經變得家喻戶曉。目前約有7億人在使用人工智慧(AI)個人助理,到2021年預計將成長到近20億人。從Siri到Google Assistant、亞馬遜(Amazon)的Alexa和微軟(Microsoft)的Cortana,AI個人助理如雨後春筍不斷湧現。三星(Samsung)去年也推出了他們的Bixby語音助理,而Facebook預計今年將實現自主虛擬助理(簡稱‘M’)的商業化。

作為開發者,瞭解這些設備的工作原理以及如何利用其功能非常重要。這些語音助理設備中內建了藍牙(Bluetooth)、Wi-Fi模組——例如高通(Qualcomm) QCA9377-3,以及處理器——例如 Qualcomm 驍龍(Snapdragon)行動平台。在本文中,我們將深入探討如何將這些模組完美融合在一起。

對話和基於命令的互動

對話介面是模仿人類交談的使用者介面(UI)。個人助理主要有兩種:聊天機器人(或基於文本的互動),以及語音使用者介面(或語音啟動助理),如前面所述的商用產品。 語音啟動助理通常是基於命令的AI互動——你需要「喚醒」並給它下達命令。

語音啟動助理是日常工作的理想選擇,例如:

  • 資訊搜尋:透過網際網路查找資訊,例如時間和天氣查詢等。
  • 任務處理:設定鬧鐘、發送訊息、播放音樂和視訊、線上購物、智慧家庭協調等。
  • 資訊收集:客服中心收集使用者資訊、醫療服務提供初步診斷。
  • 技能培訓:透過與AI老師交談來學習一門新的語言。

使用VUI可以協助使用者擺脫鍵盤、螢幕和拼字檢查的束縛,尤其適合免手持的通訊以及無障礙需求。

組成元件

語音助理的硬體元件包括揚聲器和麥克風、藍牙和Wi-Fi模組以及標準電腦系統架構(CPU、RAM等)。雖然設備中內建很多技術,但真正的「大腦」通常駐留在雲端。

要開始編寫VUI應用的最簡單方法是使用一個類似Dialogflow的庫,它整合了所有的主要應用組成元件。如果想深入研究這個「大腦」,可以學習更多關於自然語言處理(NLP)和機器學習(machine learning)的知識。

過程和原理

作為一名開發者和設計師,要充份使用這項技術,重要的是瞭解如下的完整命令互動過程:

  • 虛擬助理使用一個觸發詞(如‘Ok Google’、‘Hey Siri’)來「喚醒」,以確保它只在命令下達時才執行。
  • 音訊被記錄在設備上,經過壓縮並透過Wi-Fi傳輸到雲端。通常會採用降噪演算法來記錄音訊,以便雲端「大腦」更容易理解用戶的命令。
  • 使用專有的「語音轉文本」(voice-to-text)平台將音訊轉換成文本命令。透過指定的頻率對類比訊號進行採樣,將類比聲波轉換為數位資料。分析數位資料以確定英語音素(‘bb’、‘oo’、‘sh’等)的出現位置。 一旦辨識別出音素,就使用統計建模演算法(如Hidden Markhov模型)來確定特定單詞的可能性。
  • 使用自然語言處理技術來處理文本以確定所需的操作。 該演算法首先使用詞性標註來確定哪些詞是形容詞、動詞和名詞等,然後將這種標記與統計機器學習模型相結合起來,推斷句子的含義。
  • 如果命令操作需要進一步的搜尋,系統將立即進行搜尋。例如,「嘿!Siri,什麼是Snapdragon行動平台?」將觸發網際網路搜尋,並返回所得到的資訊。如果該命令類似於「Ok Google,傳簡訊給媽媽」,那麼命令資料(操作:發送簡訊;收件人:媽媽)就會被直接傳送到虛擬助理。

「大腦」會在雲端建構相應的答案,並且從語音樣本資料庫中檢索最佳的輸出詞,然後將這些詞拼接起來形成句子,並返回硬體向使用者播放。

下一個「熱門話題」是…

瞭解了語音助理的工作原理,你就可以打造屬於自己的產品:例如聲控遙控車,或者能跟孩子對話的許願聖誕樹等等。憑藉著強大的語音辨識功能和最新的Qualcomm 技術,包括藍牙和Wi-Fi模組以及Qualcomm 3D音訊工具等,就可以挑戰自己,開發出一些新鮮有趣的產品。