人工智慧(AI)潛在的應用與日俱增。不同的神經網路(NN)架構能力經過測試、調整和改進,解決了不同的問題,也開發出以AI最佳化數據分析的各種方法。當今大部份的AI應用,例如Google翻譯(Google Translate)和亞馬遜(Amazon) Alexa語音辨識和視覺辨識系統,都利用了雲端的力量。

藉由依賴常時連網(always-on)的網際網路連線、高頻寬鏈路和網路服務,物聯網(IoT)產品和智慧型手機應用也可以整合AI功能。到目前為止,大部份的注意力都集中在基於視覺的人工智慧上,部份原因在於它易於出現在新聞報導和視訊中,另外一部份的原因則是它更類似於人類的活動。

20180323_CEVA_NT71P1 聲音和視覺神經網路(來源:CEVA)

在影像辨識中,針對一個2D影像進行分析——每次處理一組畫素,透過神經網路的連續層辨識更大的特徵點。一開始檢測到的邊緣是具有高對比差異的部份。以人臉為例,最早辨識的部位是在眼睛、鼻子和嘴巴等特徵週邊。隨著檢測過程深入神經網路,將會檢測到整個臉部的特徵。

而在最後階段,結合這些特徵及其位置資訊,就能在可用的資料庫中辨識到具有最匹配的一張特定人臉。

20180323_CEVA_NT71P2 神經網路的特徵提取(來源:CEVA)

為了匹配經由相機拍攝或擷取的物體,希望能透過神經網路在其資料庫中找到匹配機率最高的人臉。其巧妙之處在於擷取物體時並不需要與資料庫中的照片拍攝角度或場景完全相同,也不必處於相同的光線條件下。

AI這麼快就流行起來,在很大程度上是因為開放的軟體工具(也稱為架構),使得建構和訓練神經網路實現目標應用變得容易起來,即使是使用各種不同的編程語言。兩個常見的通用架構是TensorFlow和Caffe。對於已知的辨識目標,可以離線定義和訓練神經網路。一旦訓練完成,神經網路就可以很容易地部署到嵌入式平台上。這是一種很聰明的劃分方式,能夠藉由開發PC或雲端的力量來訓練神經網路,而功耗敏感的嵌入式處理器只需為了辨識目的而使用訓練資料。

這種類似人類的人/物辨識能力與流行的應用密切相關,例如工業機器人和自動駕駛車。然而,人工智慧在音訊領域同樣具有吸引力和強大的能力。它採用和影像特徵分析同樣的方式,可以將音訊分解成特徵點而饋入神經網路。其中一種方法是使用梅爾頻率倒譜系數(MFCC)將音訊分解成有用的特性。一開始,音訊樣本被分解成短時間的訊框,例如20ms,然後再對訊號進行傅利葉轉換(Fourier transforms),使用重疊三角窗將音訊頻譜的功率映射到非線性尺度上。

20180323_CEVA_NT71P3 聲音神經網路分解圖(來源:CEVA)

透過這些提取的特徵,神經網路可以用來確定音訊樣本和音訊樣本資料庫中詞彙或者語音的相似度。就像影像辨識一樣,神經網路為特定辭彙在資料庫中提取了可能的匹配。對於那些想要複製Google和亞馬遜的‘OK Google’或‘Alexa’語音觸發(VT)功能的業者來說,KITT.AI透過Snowboy提供了一個解決方案。觸發關鍵字可以上傳到他們的平台進行分析,導出一個檔案後再整合進嵌入式平台上的Snowboy應用程式,這樣語音觸發(VT)的關鍵字在離線情況下也可以被檢測到。音訊辨識並不侷限於語言辨識。TensorFlow提供了一個iOS上的示例,可以區分男性和女性的聲音。

另一個替代應用是檢測我們居住的城市和住宅周圍動物和其他聲音。這已經由安裝在英國倫敦伊莉莎白女王奧林匹克公園(Queen Elizabeth Olympic Park)的深度學習蝙蝠監控系統驗證過了。它提供了將視覺和聽覺辨識神經網路整合於一個平台的可能性。例如透過音訊辨識別特定的聲音,可以用來觸發安全系統進行錄影。

有很多基於雲端的AI應用是不實際的,一方面存在資料隱私的問題,另一方面由於資料連接性差或頻寬不夠造成服務不能持續。另外,即時性能也是一個值得關注的問題。例如工業製造系統需要即時回應,以便即時操作生產線,如果連接雲端服務的延遲就太長了。

因此,將AI功能移動到「邊緣」(edge)越來越受到關注。也就是說,在使用中的裝置上發揮人工智慧的力量。很多IP供應商都提供了解決方案,如CEVA的CEVA-X2和NeuPro IP核心和配套軟體,都很容易和現有的神經網路架構進行整合。這為開發具備人工智慧的嵌入式系統提供了可能性,同時提供了低功耗處理器的靈活性。以一個語音辨識系統為例,可以利用整合在晶片上的功耗最佳化人工智慧,以辨識一個語音觸發關鍵字和語音命令(VC)的最小化組合。更複雜的語音命令和功能,可以在應用從低功耗的語音觸發狀態下喚醒之後,由基於雲端的AI完成。

最後,卷積神經網路(CNN)也可以用來提高文本到語音(TTS)系統的品質。一直以來,TTS用於將同一個配音員的許多高品質錄音片段,整合成連續的聲音。雖然所輸出的結果是人類可以理解的,但由於輸出結果存在奇怪的語調和音調,仍然感覺像是機器人的聲音。如果試圖表現出不同的情緒則需要一組全新的錄音。Google的WaveNet改善了當前的情況,透過CNN以每秒16,000個樣本產生TTS波形。與之前的聲音樣本相比,其輸出結果是無縫連接的,明顯表現出更自然、更高品質的聲音。