神秘AI晶片新秀Groq小露身手

作者 : Sally Ward-Foxton,EE Times歐洲特派記者

AI加速器新創公司Groq擁有70名員工,迄今已募集了6,700萬美元資金,並已完成了第二輪募資。EE Times拜訪了這家開始從隱身模式浮出水面的神秘公司,透過與領導團隊的訪談瞭解到了更多關於該公司的資訊。

美國AI加速器新創公司Groq在2019年以「客戶問題」為理由,「高調」缺席了掛名贊助商的年度AI Hardware Summit大會,引來不少耳語;對此該公司共同創辦人Jonathan Ross的解釋是:「我們的策略是客戶優先,非常注重客戶需求。」

EE Times詢問為何Groq不派一個代表出席該場會議、現身解釋一下公司狀況,也許就能避免一場公關危機,Ross堅信他們做了正確的決定;「我們的原則是,做出來,不要只是說。我們當時的確準備在AI Hardware Summit進行展示,但後來決定把資源優先放在對客戶的支援上;而結果還不錯,客戶相當滿意。」

20200224_Groq_NT01P2

Groq共同創辦人Jonathan Ross。
(圖片來源:Groq)

Ross先前曾任職於Google的張量處理器(TPU)開發團隊,而Groq許多高層都曾是Google的資深員工。這家AI加速器新創公司擁有70名員工,迄今已募集了6,700萬美元資金,並已完成了第二輪募資。EE Times拜訪了這家開始從隱身模式浮出水面的神秘公司,透過與領導團隊的訪談瞭解到了更多關於該公司的資訊。

軟體定義的硬體

Groq罕見的軟體優先(software-first)方法,是先構建一個原型編譯器而非硬體原型;硬體架構是圍繞著編譯器打造,由此產生的TSP有一個簡化的硬體設計,但所有的執行計劃都在軟體中進行。軟體實質上協調了所有資料流和時序,從而確保運算不會停頓,而且延遲和性能都是可預測的。

「我們將大量的控制權交給了編譯器,這樣就能夠在軟-硬體介面上進行一些權衡…從而提供確定性執行(deterministic execution);」Groq首席架構師Dennis Abts解釋。Abts曾在Google資料中心任職12年,還曾於超級電腦業者Cray (EETT編按:已被HPE收購)擔任硬體架構師十幾年;他解釋,編譯器既能控制程式執行也能控制功耗狀況,因此在編譯時可以準確預測到精確、可重複的執行時間,以及每個模型運作的功耗。

「我們認為這使我們的方案在易用性方面更具優勢;」Abts表示,在編譯時能得知執行時間和功耗情況意味著「你可以在確知將達到的性能是如何的狀況下,從模型開發的角度進行快速試驗並進行佈署。編譯器可以完全控制晶片,無論是動態或靜態地;他表示:「不需要什麼動態分析(profiling)程式碼,因為靜態與動態是一樣的,這樣可以實現一些非常好的特性。」

20200224_Groq_NT01P1

Groq採用軟體定義硬體的方法來提供確定性運作和可預測的延遲。
(圖片來源:Groq)

在這些特性中,最重要的是消除了大多數架構在運算與傳輸其結果之間所需的同步化(synchronisation)步驟;免除了同步化的工作負擔,意味著可以大規模佈署模型而不會產生尾延遲(tail latency)。Abts指出,尾延遲是目前資料中心的一大難題。Groq的晶片可以在編譯時預先知道所有延遲。

「我們還避免了在前端導入很多複雜的硬體,如推測執行(speculative execution)、分支預測(branch prediction),很多複雜的控制結構可以簡單被排除;」Abts解釋,「有很多原因導致我們採取這樣的措施,尤其是因為激進的推測技術很可能被當成攻擊武器,導致如Spectre或Meltdown等CPU硬體安全漏洞。」

TSP不是FPGA

將軟體定義的硬體與確定性運作相結合的概念可能會讓人想到FPGA,但Ross強調,TSP絕對不是FPGA。另一家美國矽谷新創公司SambaNova最近也提出了「軟體定義硬體」概念,其細節還未完整公開(SambaNova仍處於隱身模式),僅表示他們正在開發可重新配置的資料流架構,並致力於開發用於可編程加速器的語言。

Groq的方法和SambaNova的概念之間是否存在重疊?針對EE Times提出的疑惑,Ross表示:「這是一個全新的概念,想像FPGA可以在每個週期重新配置,我們的晶片運作方式就類似是這樣,但它不是FPGA,沒有查找表(lookup tables)…你可以在每一個週期完全更改晶片功能,甚至可以確切知道晶片的每一個部分在任何時刻的運作情況,你的控制可以達到非常精細的程度,但它不是FPGA,與其他公司正在做的東西不一樣。」

不過市場研究機構Tirias首席分析師Kevin Krewell表示:「 Groq的方法的確實與常規FPGA以及SambaNova的方法非常相似;」他對於Groq到目前為止所分享的資訊提出了一些疑慮:「TSP的設計看起來非常精細,但我對每平方mm的運算效率仍有疑慮,可能存在許多挑戰。例如該設計是靜態編譯的,這意味著一次只能處理一種類型的機器學習演算法,而根據工作負載的不同,有些任務需要不同的機器學習模型,例如推薦、影像處理和語音處理。Groq並沒有透露該晶片針對一個不同的演算法需要花多少時間重新配置。」

第一款晶片

Groq的TSP將大量的算數邏輯單元(ALU)與大量的晶片上記憶體結合,同時提供充足的頻寬以饋送資料給ALU (>60TB/s)。根據EE Times記者看到的簡報檔案(Groq婉拒分享),其裸晶照片顯示有三列ALU與兩條記憶體交錯(ALU約佔據晶片面積的40%,記憶體約50%)。Groq官網的資料則顯示,TSP的運算能力可以達到400TOPS,但並未指明達到該算力的具體條件,只提到這是INT8運算的峰值性能。另外,儘管TSP同時支援整數運算和浮點運算,但公司目前仍堅定地專注於AI推論。

Groq工程副總裁Michelle Tomasko表示:「我們已經投片成功,而且晶片一回來就啟動,在第一週我們就實現了在晶片上執行程式,6個星期後就開始提供客戶樣品…現在我們已經達成目標,準備要將A0晶片投入量產;她細介紹了TSP的確定性機制將如何改善客戶的系統驗證時間,並表示能在晶片交貨前提供編譯器,也就是客戶能提前依據TSP架構開發模型。

「如此等到客戶拿到硬體時,內容已經準備就緒;」Tomasko指出:「確定性使我們能夠在傳統體系架構中進行我們自己的矽前驗證測試…在傳統架構上這很複雜,有許多不同的控制系統,因此存在競爭條件(race conditions)、邊界條件(boundary conditions)以及需要排除的東西。當我們進行這些,就知道確定性核心是有用的,並且確實表現良好。」

Tomasko在加入Groq之前,曾在Google任職3年,在那之前也曾為Nvidia工作。她表示:「Nvidia的人力資源充足,一旦確定了要達成的目標,他們可以非常輕鬆地解決架構問題。而事實是我們的架構可以迅速靈活地執行,這也是我們能與Nvidia這樣的巨擘分庭抗禮之關鍵。」

Groq正鎖定資料中心和自動駕駛車輛等應用的AI推論,該公司營運長Adrian Mendes表示,超大規模資料中心客戶對TSP能夠解決尾延遲問題興趣濃厚,因為這有助於大型資料中心的橫向擴展。同時,企業資料中心和Tier 1廠商對TSP可以預處理程式碼的能力很感興趣;而低延遲對於金融業等高頻率的線上交易應用也具有很大的吸引力。

Mendes指出,「微秒級延遲與完全確定性機制的結合,使TSP非常適用於像自動駕駛這樣的安全關鍵應用。從2019年8月開始,我們已經向少數客戶出貨硬體,並已經佈署於客戶的資料中心…他們已經在那些板子上執行軟體程式,效果良好。」Groq的TSP現已提供PCIe板卡樣品。

本文原刊於電子工程專輯雜誌簡體中文版2020年1月號

(參考原文:'No-Show'Groq Partially Unveils AI Architecture,by Sally Ward-Foxton)

發表評論