除了Google、Facebook、亞馬遜(Amazon)和百度(Baidu)等業界「大咖」一直在設計用於訓練和推論的深度學習晶片,幾乎每一週,我們都還會聽說有一些「名不見經傳」的新創公司開發出新一代AI SoC架構。

儘管有這麼多的AI新晶片陸續發佈,但一位資深的產業分析師——Tirias Research首席分析師Kevin Krewell提醒道:「機器學習處理領域充斥著許多新的主張,但只有真正可用的晶片和軟體才能展現實力。」

事實上,這麼多的產品中卻找不到一款可在今年或甚至明年上市。直到真正的晶片上市,我們才有辦法知道哪些晶片是真的,哪些只是誤導市場的煙霧彈。

然而,最近在一次與Arteris行銷副總裁Kurt Shuler的採訪中,他提醒我們,有時候,像AI晶片這樣一個被過度宣傳的新興市場中,真正發生哪些事情的答案p竹須要向更深層的食物鏈中去尋找。

誰在打造AI SoC?

Arteris日前推出新的互連IP以及名為FlexNoc 4的AI軟體套件。據Shuler稱,該公司的新產品旨在加速下一代深度神經網路(DNN)和機器學習系統的開發。

從與Shuler的訪談中可以發現,Arteris憑藉其網路晶片(NoC) IP,已經將自家公司提升至一個新高度,清楚可見在全球AI SoC設計領域中有誰在經營哪些業務。

據Shuler表示,當專為訓練而設計的AI晶片比以往任何時候都更加強大、更複雜,而且還經常與大規模平行處理器整合時,「互連變得格外重要」。

Shuler在採訪中分享了目前使用該公司互連IP和工具開發AI SoC的晶片公司名單。雖然這份清單中包括許多沒沒無聞的新創公司和現有的系統供應商(包括日本相機OEM和一些大型系統OEM),但它清楚地描繪出現有SoC公司也在切入AI晶片設計及其最新進展。

20181106_Arteris_NT01P1 (來源:Arteris)

在汽車領域,這份清單中不乏Mobileye、恩智浦(NXP)和東芝(Toshiba)等知名大廠;針對行動性,當然少不了海思半導體(HiSilicon)。至於網路和自動化的機器學習類別,Arteris的客戶還包括了Movidius和百度(Baidu)。

根據Shuler的觀察,「中國目前正興起一波AI晶片淘金熱潮。」中國政府正大力支持各種相關活動。包括雲天勵飛(Intellifusion)、燧原科技(Enflame Technology)、天數智芯(Iluvatar Corex)、寒武紀科技(Cambricon Technologies)和嘉楠耘智(Canaan Creative)等多家中國業者也積極與Arteris合作投入AI晶片的開發。

誰在推動AI架構?

相較於應用處理器(AP)或物聯網(IoT)晶片必須支援定義明確的架構,AI SoC則全然不同。Shuler說,「例如,應用處理器基本上就是一種架構。但對於AI SoC,每個人都還在嘗試各種途徑。」

至今還沒有哪一種SoC架構能一統AI世界,也沒有一種所謂正確設計AI SoC的方法。Shuler指出,這使得「靈活性」成為AI SoC設計的一項重要元素。

他說,「目前大多都是軟體人員在開發AI晶片。」

因此,軟體人員可能會說,「讓我們看看這種特殊的DNN類型。我們都專精於數學,所以想弄清楚哪一部份能以硬體加速。」每個人都跟著這樣做,一直到有人終於問了,「資料需要整理嗎?我們應該清除不需要的資料。我們能開發出有助於更快得到答案的硬體嗎?」當然,但接下來,同樣的軟體類型起不了作用後,他們可能還會問:「我們該如何加速這種卷積?」

因此,Shuler解釋說,許多設計團隊傾向於個別處理元素——每個元素都有一些數學成份、一些本地記憶體。然而,最終真正未解決的問題是「資料流」(data flow)。

雖然處理元素之間必須能夠彼此通訊,但也必須管理處理元件和記憶體之間的傳輸流量。Shuler說:「資料流是他們無法真正瞭解的問題之一。」但他們必須能夠「以最有效率的方式保持這些資料的流動。」這就是互連IP和工具得以發揮作用之處。

架構問題

Arteris從與各種系統和SoC公司合作開發AI晶片的經驗中,更清楚地掌握了AI晶片面臨的架構問題。

Shuler說目前主要有三大挑戰。他首先提到的是AI訓練晶片,並指出網路拓撲、晶片尺寸太大,以及需要更大的頻寬,包括晶片上資料流以及存取至晶片外接記憶體。

Shuler解釋說,關於網路拓撲結構,AI晶片設計人員通常會尋找網格、環形和圓環等元素,這有助於建立可預測的資料流。Arteris根據從AI晶片客戶學習到的各種知識,在其FlexNoC AI中打造了新的IP技術。Shuler說,該新工具能夠「自動產生拓撲結構」,為硬體設計人員提供了「客製和最佳化拓撲和個別網路路由器」的機會。

另一項重大設計挑戰來自於設計人員必須能夠實際處理大型晶片的現實問題。

20181106_Arteris_NT01P2 大型AI晶片可能成為時序收斂等問題的根源(來源:Arteris)

Shuler提到,他所見過的最大型AI晶片尺寸約20 x 20 mm。400 mm 2是一相當大的晶片了。他解釋說,尺寸大小真的很重要,因為在AI晶片上跨越長距離時需要「較長的晶片路徑,而這將導致時序收斂問題」。據Arteris指出,新工具提供的「來源同步通訊」和「虛擬通道鏈路」有助於解決這個問題。

第三項挑戰是最經常被提到的問題:頻寬。晶片上資料流以及存取至晶片外接記憶體都需要很大的頻寬。

支援群播

最近幾個月,AI晶片客戶越來越關注於晶片是否能支援「群播」(multicast)。

為什麼需要群播?因為它能以盡量接近網路目標的方式播送資料,從而使晶片上和晶片外記憶體頻寬的利用最佳化。Shuler說:「這將更有效率地升級DNN權重、影像映射以及其他群播資料。」

20181106_Arteris_NT01P3 AI晶片日益需要智慧群播功能。例如上述的廣播電台技術能使NoC頻寬利用最佳化(來源:Arteris)

加一家新創公司Provino Technologies執行長Shailendra Desai曾經在接受《EE Times》採訪時表示,由於該公司開發出NoC IP,目前正獲得了好幾家名列Fortune 500的公司關注。Desai表示,系統供應商如今都要求AI晶片「支援群播」,因為他們認為這將顯著地降低AI晶片的功耗和延遲。

Shuler也認同「智慧群播」是目前每一個AI SoC設計師都在追求的功能。

記憶體存取

眾所周知,外接記憶體的資料經常需要移進移出,但由此帶來的功耗,是在設計AI晶片時最頭痛的問題。

一方面,新創公司Mythic期望將神經網路映射至NOR記憶體陣列。據該公司介紹,這種新架構能以節省多達兩個數量級的功耗計算和儲存資料。

但是,對於等不及Mythic推出商用產品的人來說,目前並沒什麼選擇。他們必須找到最節能的方法來建立存取至晶片外接記憶體的途徑。

為此,Arteris提供第二代高頻寬記憶體(HBM2)和多通道記憶體支援工具,讓設計人員能整合HBM2多通道記憶體控制器以及「8或16通道交錯」。

藉由Arteris的工具部署記錄器緩衝區和「流量聚合和資料寬度轉換」,即可透過8或16個目標網路介面單元,將各種不同的連接組合於HBM2前端,如下圖所示:

20181106_Arteris_NT01P4 HBM2和多通道記憶體支援(來源:Arteris)

未來:「一定有人陣亡…」

Arteris規劃了一個遠大的未來藍圖,畢竟,AI SoC設計行動並不只是「空談」或幻影。從取得Arteris IP授權的業者即可證實,許多新創公司和傳統SoC供應商都在設計AI晶片。有趣的是,Arteris發佈的設計工具也顯示許多公司都面臨相同的設計問題。

但實際上,大多數產業觀察家並不看好目前所有的AI晶片公司都能在五年後繼續存在。

一位不願透露姓名的AI新創公司主管表示,「最終必然會有公司陣亡。每一家新創公司都必須考慮如何退場,未來並不一定會一路順風。」

他看到一個可能的重要變數是「雲端解決方案供應商和OEM的需求」,他們希望在內部開發自家晶片。因此,他們很可能造成「一些新創公司的退場。」

而在邊緣端,「仍然存在一些機會,但要和大型公司競爭也不容易。」這將促使一些希望求生存的競爭者採取「更高風險的路徑」,例如AI在記憶體內運算(IMC)、類比等方面。

歷史背景

AI晶片新創公司正從創投業者(VC)手中獲得了大把創投資金。然而,Linley Gwennap總裁Linley Gwennap說,「雖然VC通常都會審慎行事,但僅有1/5或1/10的投資案能帶來巨大報酬即可接受。無論是VC或任何人應該都不會指望所有的新創公司都能繁榮興盛。」

Linley認為,「VC大舉投資AI新創公司,主要是因為這些解決方案的市場規模很大,在未來五年內,每年創造的晶片營收可能至少都有100億美元。」

但是,「在新創公司開始出貨產品之前,你很難對其進行評估。」他指出,這種循環就像回到了我們開始對話AI晶片之處。

Linley說:「即使是像Wave和Graphcore等似乎比多數公司發展更超前的公司,就算發佈了一些性能基準,也不允許第三方公開評估其產品。許多新創公司已經遠遠落後於其最初所承諾的性能和時間表。等到這些產品能夠公開供測試時,證據自然就會出現了;預計在一年後,我們將更能瞭解整個市場定位。」

編譯:Susan Hong

(參考原文:Who’s Who in AI SoCs,by Junko Yoshida)