「依靠NetSpeed Orion AI的幫助,特斯拉(Tesla)自動駕駛晶片從設計到投片只花了9個月的時間,這在以前是完全不可想像的。」NetSpeed Systems大中華區銷售總監黃啟弘列出的多家客戶案例中,除了特斯拉,還包括3家來自中國的人工智慧(AI)公司:地平線機器人(Horizon Robotics)、寒武紀科技(Cambricon)和百度(Baidu)。

20180628_NetSpeed_NT61P1 NetSpeed Systems大中華區銷售總監黃啟弘

在晶片上佈一張網際網路

可能很多人對NetSpeed並不熟悉。這是一家專為行動裝置、網路系統和高性能運算市場提供高擴展性快取一致性晶片上網路IP的新銳公司,2011年成立於美國矽谷,核心技術團隊來自思科(Cisco)與華為(Huawei),投資方則包括英特爾(Intel)、Imagination、華登國際(Walden Int’l)等知名企業。2016年,根據技術、目標市場、財務能力和投資情況、成熟度和資深管理人員資歷等標準,NetSpeed被《EE Times》列入「Silicon 60:2016年全球60家值得注意的新創科技公司」名單之中。

與其它競爭方案不同的是,NetSpeed的晶片系統匯流排設計理念是將網際網路的網路拓撲思維映射到晶片內部的設計中。即採用資料路由和封包交換技術替代傳統匯流排結構,旨在從架構上解決由於位址空間有限導致的傳統匯流排結構可擴展性差、分時通訊引起的通訊效率低,以及全域時脈同步引起的功耗和面積較大等問題。

一般來說,「以前,我們可以把SoC中的視訊功能關掉,但匯流排是無論如何不能關的。但現在在Orion AI方案中,即便關掉一部份匯流排也沒問題,晶片仍然能夠正常工作。」黃啟弘說NetSpeed的做法,就是放棄傳統的匯流排理論,把所有的資料透過橋接模組的形式分成資料封包,然後再用網際網路的方法分發出去。

他將這種晶片上網路(NoC)的理念比喻成「在晶片上佈置一張網際網路」。也就是說,傳統的方法傾向於孤立地最佳化各個子系統,從而導致瓶頸問題和採用過度的系統設計來處理最極端的情景,這對當前在視訊、語音、預測、機器人及診斷等應用正漸入佳境的人工智慧技術來說尤其不利。因為這些新興應用對處理能力提出了進階需求,推動運算架構發生天翻地覆的變化,並急劇改變著SoC的設計模式。用NetSpeed執行長Sundari Mitra的話來說,就是這些新SoC內部體現出一種新的資料流程。

「以自動駕駛為例,這是人類第一次如此堅決的把身家性命交給半導體晶片來做決定。」黃啟弘對《電子工程專輯》說,晶片設計師為此需要大量的運算單元來實現快速有效的點對點資料交換,需要確保訊號迴路沒有任何阻斷和延遲,再加上人工智慧系統需要任意位置資料交換和支援長突發傳輸,採用中央儲存作為資料交換系統的傳統匯流排架構在這些需求面前幾乎處於完敗的境地。

如何才能實現更好的人機互動?現在就報名Tech Taipei2018智慧物聯與嵌入式應用系列研討會,與業界專家攜手揭密物聯網最新技術,搶先一步搶灘數兆商機!

用人工智慧最佳化SoC設計

於是,Orion AI出現了。

它是NetSpeed在AI SoC設計領域的最新嘗試,因為NetSpeed認為這是一個展示自身優勢的絕佳的時間節點。

按照官方說法,Orion AI是業款以人工智慧為基礎的SoC晶片內部互連解決方案,由經過矽驗證的Orion IP建構而成。支援多播與廣播等先進特性,能極大提升人工智慧SoC與加速器ASIC的性能與效率,可廣泛應用於資料中心、自動駕駛、AR/VR,以及先進視訊分析。

20180628_NetSpeed_NT61P2 Orion AI架構

從技術角度來看,當一顆晶片內部整合了數百甚至上千個運算單元時,傳統匯流排架構需要針對不同的系統需求單獨進行設計,當系統功能擴展時,需要對現有設計方案重新設計,研發成本與設計週期均比較長,在性能、功耗、全域時脈同步、訊號完整性以及可靠性等方面面臨的挑戰也將呈指數級增加。

NetSpeed的解決方案採用分層堆疊方式將網路架構解耦,具有良好的可擴展性。當SoC晶片內網路中節點數量增加時,僅需要按照相應拓撲結構規則繼續增大網路規模即可,縮短了產品的設計週期,節約了研發成本。另外,傳統匯流排架構,每次資訊互動都需要驅動全域互連線,因此匯流排結構所消耗的功耗將隨SoC規模增加而顯著增加,而在NetSpeed方案中,可以將一部份訊號通路關掉,從而實現低功耗。

授權費用方面,儘管黃啟弘不能透露具體數字,但他承諾說「絕對低於arm的費用」,但也肯定高於普通介面IP的費用,通常是根據客製的複雜度來決定該怎麼收費。NetSpeed一般會在授權完成之後對客戶進行1-2天的培訓,因為無論簡單還是複雜的工具,最後都是由AI工具自動生成RTL,所以商業模式相對比較靈活。

Orion AI由NetSpeed的圖靈機器學習引擎提供支援,該引擎使用監督學習來探索和最佳化SoC設計與架構。據稱這也是當前市場上唯一採用機器學習方法的產品,能在多次反覆運算之後慢慢收斂,精確地進行整體系統建模,以實現最佳化的應用性能。中國幾家主要的網際網路公司之所以選擇與NetSpeed合作,也是看上了這一核心技術。

20180628_NetSpeed_NT61P3

除了透過人工智慧進行SoC設計之外,Orion AI的晶片頻寬高達TB/s,並具備支援數千運算引擎的底層架構。它提供超寬資料通路,介面位元寬高達1024位元,可支援高達4K位元組的長突發傳輸,並可客製更高位元頻寬。此外,為最佳化對自動駕駛應用的支持,Orion AI還通過了ISO 26262標準,可支援ASIL D等級的安全要求。

Linley Group首席分析師Linley Gwennap對這種以人工智慧為核心的設計方法給予極高的評價,稱「就像有一位隨時上線的建築大師給出設計建議。處理器架構師可以採納圖靈的建議,然後花時間去解決SoC設計中的其他難題。」

Turn-Key模式不適合NetSpeed?

把人工智慧技術從雲端引入終端,會遇到一些挑戰。首先,雲端追求的是極致性能,對功耗沒有太多要求。但對終端設備而言,能耗卻是非常重要的指標,晶片需要滿足系統低功耗的要求。其次,是通用性與特殊性如何平衡。當一個終端產品從通用產品變成專用產品的時候,市場規模會小很多,例如做血液檢查的終端產品就只能做血液檢查,不能做別的事情。因此,對那些有志於從事嵌入式人工智慧的人士來說,黃啟弘的建議是需要綜合考慮公司是否能做?怎麼做?如何在性能、功耗和通用性三者之間找到平衡點等關鍵問題。

「我拜訪過很多人工智慧公司,留給我的印象是如果不開發出幾款AI晶片,都不好意思說自己是這個產業的人。」黃啟弘說從理論上來講,開發晶片永遠比賣演算法要好,因為如果只有演算法,對智慧財產權的保護還是相對比較弱的,一篇論文就可以讓天下人皆知。但很多公司此前之所以不願意研發晶片,主要的顧慮在於晶片研發週期比較長,一旦出錯,上億的資金付之東流是常見的事情,代價太大。然而隨著中國政府對晶片產業支持力度和對智慧財產權保護力度的不斷加強,AI公司看到了實現自主可控的希望,獨立開發晶片的意願也更加強烈。

但「一千個人眼裡有一千個哈姆雷特」,即便是同一個應用場景,不同客戶間也存在著不同的理解,導致晶片設計的複雜度也各不相同。因此,無論用戶採用通用還是客製化運算平台,都可以在SoC設計中使用Orion AI解決方案,縮短研發週期,快速完成設計反覆運算,自然成為NetSpeed的使命。

AI時代,傳統的SoC晶片高度整合,一家獨大的模式正在發生變化,由於不同場景對晶片、演算法的需求各不相同,導致客製化運算平台需求旺盛。黃啟弘說自己認同這樣的看法,的確是同一顆晶片,在不同的演算法和應用中,也會產生不同的價值。但這是否就意味著以往的Turn-Key模式走向衰落?他認為並不一定。「因為很多做系統的人對晶片設計並不瞭解,這時要能給他一個Turn-Key方案,說不定他就會借此把市場做大。但NetSpeed設計的是匯流排,不會參與客戶最核心的神經網路設計之中,因此Turn-Key這種模式不適合我們。」