「我跑過100多個馬拉松賽事,透過比賽經歷了很多的訓練和洗禮。同時也深深懂得,要想取得更好的成績,就必須要轉型,不斷設定新的目標,隨時調整自己。」這是賽靈思(Xilix)CEO Victor Peng在「2018賽靈思開發者大會(XDF)」上做主題演講時的開場白。他說現在FPGA非常強大,賽靈思今後將不再僅僅是一家FPGA企業,而是策略轉型成為平台公司。賽靈思今後的使命,將是「打造靈活應變、萬物智慧的世界」。

今年3月,Peng在上任46天後來到中國,宣佈了以「資料中心優先、加速核心市場發展和驅動靈活應變的運算」為核心的新策略,並首次推出自我調整運算加速平台ACAP(Adaptive Compute Acceleration Platform)概念。此番再訪中國,ACAP首款產品Versal,以及全球最快的資料中心和人工智慧(AI)加速器卡Alveo,已經從概念變為現實。

摩爾定律已經消亡

「隨著AI和大資料的爆炸性發展,晶片設計的週期已經無法跟上創新的腳步,產業走到了一個關鍵的轉捩點。」在Peng看來,摩爾定律已經消亡,CPU也不是一個關乎未來趨勢的正確選擇。「就像自然界"物競天擇,適者生存"的自然法則一樣,在數位世界,對於量產型應用來說,靈活應變的系統是最具彈性和可持續性的。」他說當今的開發者希望運算性能呈現幾何級數的增長,而非20%~30%,所有的業界領袖企業除了英特爾(Intel)都是這樣看的。

賽靈思產品及技術行銷資深技術總監Kirk Saban在接受媒體採訪時也表示,這是一個異質運算的時代,雜亂無序的資料堆積如山,一種架構無法獨自完成資料處理任務。而從過去40年半導體發展歷史來看,運算引擎CPU單純採用製程縮放技術發展的道路遇到了很大的挑戰,難以透過等量的運算提升換取等量的性能提升,半導體製程的變化迫使運算引擎變成平行趨勢。

Peng同時對中國大量AI初創企業提出建議,稱AI技術現在非常火紅,但這些企業應當專注於創新演算法和架構,而不是設計晶片。他並反問,「有幾家新創企業是因為做ASIC晶片而成功?」

他隨後解釋,初創企業做ASIC如果能做的比英特爾、Nvidia、賽靈思都出眾也好,但難度確實非常大。所以如果真正想讓這些企業在高科技領域創造價值,必須要作別人沒做過的,而不是做幾家大企業正在做的事情,這樣對資源和資本是一種浪費。而賽靈思之所以收購中國大陸AI新創公司深鑒科技,是因為他們在網路最佳化、深度神經網路(DNN),還有一些架構和實用性技術方面的創新非常出色。

深度揭秘7nm驚世之作

Versal這個名字來源於兩個詞,一個是多樣性;一個是通用性。Versal ACAP整合了標量處理引擎、自我調整硬體引擎和智慧引擎,以及前瞻的記憶體和介面技術,能為所有的應用提供強大的異質加速功能。不過,最重要的是,Versal ACAP的硬體和軟體均可由軟體發展者、資料科學家和硬體開發者進行程式設計和最佳化,這要歸功於其符合業界標準設計流程的一系列工具、軟體、程式庫、IP、中介軟體和框架。

繼華為(Huawei)麒麟980和蘋果(Apple)A12之後,Versal產品組合同樣選擇了7nm鰭式場效電晶體(FinFET)製程技術,這也是第一個將軟體可程式設計特性與特定領域硬體加速和靈活應變能力相結合的平台。該產品組合包括6個系列的元件,其獨特架構針對雲端、網路、無線通訊,乃至邊緣運算和端點等不同市場的眾多應用,提供了可擴展性和AI推斷功能。

Versal產品組合包括Versal基礎系列(Versal Prime)、Versal旗艦系列(Versal Premium)和HBM系列,能針對要求最嚴格的應用提供業界領先的性能、連線性、頻寬和整合功能。此外,該產品組合還包括AI核心系列(AI Core)、AI邊緣系列(AI Edge)和AI射頻系列(AI RF),採用突破性的AI引擎。

AI引擎是一種新型硬體模組,專為解決各種應用低延遲AI推斷的新需求而設計,同時支援高階DSP實現方案,滿足無線和雷達等應用要求。它與Versal自我調整硬體引擎緊密結合,支援整體應用加速,從而確保最高性能和效率。

該組合中率先亮相的是Versal Prime系列和Versal AI Core系列,相對於業界領先的GPU,AI推斷性能預計能提升8倍,將於 2019 年下半年上市。

Versal Prime系列適用於多個市場的廣泛應用,並針對各種工作負載的連線性和線上加速進行了最佳化。這款中階系列包括9款產品,每款產品都採用雙核心Arm Cortex-A72應用處理器、雙核心Arm Cortex-R5即時處理器、256KB片上記憶體(內建ECC)、超過4,000個專為低延遲高精準度浮點運算最佳化的DSP引擎。此外,它還包括200多萬個系統邏輯單元,結合200Mb以上UltraRAM、超過90Mb的Block RAM,以及30Mb分散式RAM,能支援定制記憶體架構。

該系列還包括PCI Express(PCIe)Gen4 8通道和16通道,以及CCIX主機介面、功耗最佳化型32Gbps的SerDes和主流58Gbps的PAM4 SerDes、多達6個整合型DDR4記憶體控制器、多達4個多速率乙太網路MAC、700個高性能I/O(支援MIPI D-PHY)、NAND、儲存級記憶體介面和LVDS、78個多工I/O(連接外部元件)和超過40個HD I/O(3.3V介面)。透過片上網路(NoC)實現互連後,具有多達28個主/從埠,以低延遲提供Tbps頻寬,而且提供高功率效率和原生的軟體可程式設計性。

與Versal同步推出的,還包括「全球最快的資料中心和AI加速器卡」——Alveo系列。就機器學習而言,Alveo U250即時推斷輸送量比高階CPU高出20倍,相對於高階GPU等固定功能的加速器,能讓2毫秒(ms)以下的低延遲應用性能提升4倍以上。此外,相對於GPU,Alveo加速器卡能將延遲減少3倍,在執行即時推斷應用時提供顯著的性能優勢。資料庫搜索等一些應用可從根本上得到加速,性能可比CPU高90倍以上。