大部份的人可能會發現我們現在都被迫使用一些安全功能來存取電腦、智慧型手機以及其他裝置。而且,要登入各個不同的網路帳號(畢竟,每個人都有好幾個),經常比登天還難。

我自己都記不得究竟擁有多少帳號和密碼了,光是用想的就讓我要噴淚了。而且,我真的很不喜歡把時間浪費在筆記型電腦和智慧型手機的那些指紋辨識偵測器上。如果每一次都能一觸即開,那當然沒什麼問題,但當你被迫一而再、再而三地嘗試後,這些裝置才心不甘、情不願地被迫開始工作,那真的幾乎要讓我崩潰了。

期望有一天,我所使用的任何系統或網站只要看著我或聽到我說話,就可以對它自己說:「這是偉大的Max本人沒錯,從他那高貴的外表和驚人的時尚感就可以確定了。我很榮幸能讓他充份利用所有的應用程式和資料……」

你還記得嗎?記年前我寫了一篇有關Sensory TrulySecure技術的專欄文章——「生物特徵辨識技術結合語音與視覺」。當時我在文中提到,「結合語音辨識與人臉辨識,可提供最先進的安全解決方案」

TrulySecure是一種不必依靠雲端連接的裝置上生物辨識系統。當然,有許多的科幻小說都描述過類似的技術,包括用某個人的照片取代本尊來騙過系統。TrulySecure則是尋找足以象徵某個生命、呼吸的個體等微弱的身體動作來解決問題。

那麼,聲紋認證(voice authentication)呢?假設你的朋友們三更半夜來敲門,你問道:「是誰?」他們回答說:「是我!」即使只從這兩個字,你或許就能知道你的訪客是誰。而今...

我最近聽說了一家加拿大人工智慧(AI)新創公司Lyrebird。該公司致力研發新一代的語音分析與產生技術,並計劃提供給嵌入式(或其他)系統開發商。

起初,這一切似乎都是相當單純的。您可以從數千個預定義的聲音中進行選擇,也可以為特定應用設計獨特的聲音。甚至還可以控制所產生的聲音,使其表現出幸福、憤怒、同情以及壓力等各種不同的情感。

然而,當我們了解到Lyrebird基於深度學習/神經網路的系統能夠分析短至1分鐘的聲音,而且還能用來產生獨特的密鑰時,事情似乎就開始變得令人不安了。畢竟,這種密鑰接下來還可用於產生任何語音、模擬其對應的聲紋,甚至再加上任何設計過的情緒等。

Lyrebird的開發人員們還計劃提供一種語音API,可聆聽人們說話或進行錄音,並產生相關的密鑰。還有另一種API可讓使用者利用所需的聲音產生任何語音或對話。例如,Lyrebird官網上的展示頁。另一個例子是川普(Donald Trump)、歐巴馬(Barack Obama)和希拉蕊(Hillary Clinton)之間的虛擬對話。

20170525_Voice_NT03P1 (來源:lyrebird.ai)

我們仍處於這項技術的早期發展階段,還有很多工作尚待完成,但目前看來肯定會給人一種即將實現的感覺。畢竟它所帶來的含義與影響,遠遠超過基於語音的生物辨識對於安全的威脅。

但你還記得1984年上映的電影《魔鬼終結者》(Terminator)嗎?當時由阿諾·施瓦辛格(Arnold Schwarzenegger)扮演來自未來的生化人,穿越時空來到1984年並試圖殺死莎拉·康納(Linda Hamilton扮演),而莎拉尚未出世的兒子約翰·康納有一天將會成為救世主,組織人類抵抗軍在末日後(post-apocalyptic)對抗天網及其統領的機器軍團。

此時我所想到的是魔鬼終結者殺死了莎拉的母親後,當莎拉還不知道魔鬼終結者模仿受害者的能力時,她試圖透過電話與母親聯繫,但魔鬼終結者完美地模仿了母親的聲音。當時我看到魔鬼終結者的嘴唇移動,聽到的卻是一個女人的聲音出現—— 完美同步——那場景不禁讓我不寒而慄;即使現在…我也正在發抖!

一旦像Lyrebird這樣的技術變得廣泛可用,當有人打電話給我們時,該如何確定我們實際上是在跟誰說話呢?還有像執法機構竊聽電話取得的錄音呢?這些經常被用來定罪罪犯和恐怖分子。而今,在某些情況下(例如缺少視訊時),辯護律師應該可以針對磁帶上的聲音是否確實屬於客戶而提出合理的懷疑。

或者,政治家呢?假如有人發佈了一個聽起來像某位政治家自己認罪的錄音檔,我猜很多人會幸災樂禍吧?

針對這個主題探討得越多,會讓人變得越恐懼。你覺得呢?你對上述的討論有什麼想法?除了我所提到的,你還想到哪些可能的應用——無論是好的還是黑暗的一面?

編譯:Susan Hong

(參考原文: Thinking of using voice authentication? Think again! ,by Clive (Max) Maxfield)