加拿大新創Untether AI第二代推論晶片支援邊緣應用

作者 : Sally Ward-Foxton,EE Times歐洲特派記者

Untether AI的新架構內部代號為Boqueria,能因應大規模神經網路的發展趨勢,包括用於自然語言處理以及其他任務的變換網路,需要省電的端點應用,還有需要將性能、省電與預測精準度結合的應用。

在8月下旬以虛擬形式舉辦的年度Hot Chips大會上,總部位於加拿大的新創公司Untether AI發表了支援人工智慧(AI)推論的第二代晶片架構;以及採用該全新架構的首款晶片。該公司也計劃將該晶片架構擴展至邊緣與端點加速器。

Untether AI的新架構內部代號為Boqueria,能因應大規模神經網路的發展趨勢,包括用於自然語言處理以及其他任務的變換網路(transformer networks),需要省電的端點應用,還有需要將性能、省電與預測精準度結合的應用。

第一款採用Boqueria架構的晶片SpeedAI,是用於資料中心的推論加速器,峰值功耗(66W)下能以FP8格式達到2 PFLOPS的運算性能,或是在更常見的30~35W功率封包下,達到30 TFLOPS/W。(Untether的第一代晶片RunAI,能以INT8格式達到500 TOPS算力)。這種程度的性能意味能以每瓦每秒750次查詢的速率執行以BERT模型為基礎的推論;根據該公司的說法,是目前尖端GPU性能的15倍。

該尺寸35mm見方的晶片採用台積電(TSMC)的7奈米製程技術,內含超過1,400顆最佳化的RSIC-V核心,是《EE Times》所見過的商用晶片中核心數最多的──打敗了另一家新創公司Esperanto的紀錄。

「這樣的性能表現是不同因素的融合,」Untether AI產品副總裁Bob Beachler接受《EE Times》訪問時表示:「包括電路設計、資料類型,以及了解神經網路如何運作──與卷積網路相較,變換網路是如何運作?──所有這些都能在我們的第二代晶片中體現。」該公司在開發Boqueria架構時,仔細地考慮了靈活性、性能與可擴展性之間的平衡。

Beachler表示:「要打造通用AI運算架構,你必須有正確的粒度(granularity)與靈活性,才能執行這麼多神經網路,而且能從小到大繼續擴展;」他補充指出,精確度對推論工作負載來說也很重要,特別是準確度差幾個百分點都可能導致重大財務虧損的推薦任務,以及像是自動駕駛等安全導向應用。」

記憶體內運算

Untether AI的第二代架構Boqueria以與第一代相同的記憶體內運算(at-memory compute)概念為基礎,該晶片內含總計238MB的SRAM,排列成729個記憶體庫(memory banks),總記憶體頻寬約1 PB/s。該記憶體庫內含處理元件(processing elements)、控制器核心(controller cores)以及連網元件(networking elements)。

每一個記憶體庫都有兩個RISC-V處理器,取代第一代晶片中自家研發的RISC設計;它們具備多執行續(multi-thread)能力,可同時驅動多行處理元件,因此提升粒度與效率。Untether AI已經為任務添加了超過20條客製指令,包括矩陣向量乘法以及簡約列函數(row reduce functions),像是在變換網路中發現的SoftMax或LayerNorm。

 

Boqueria的記憶體庫特寫,可看到SRAM陣列與處理元件(PE)混合排列;其中有具備多執行續能力的RISC-V核心以及新的行控制器。

(來源:Untether AI)

Beachler解釋,在第一代的架構中,每一個記憶體庫內的處理元件是以單一控制器來控制,該控制器可能會執行(或不執行)相同的指令;而在新的Boqueria架構中則是以逐行為基礎進行控制,因此64個處理元件中的每8行可以獨立運作。這種粒度的降低提升了效率,因為不同的指令能在同樣的記憶體庫中被處理。

處理元件保留了零檢測(zero-detect)電路,能在稀疏網路中節省電力;此外也有對2:1結構化稀疏的硬體支援。記憶體庫內的SRAM是標準的6電晶體單元,而且因為由台積電(TSMC)的16奈米製程升級為7奈米,資料路徑的電壓能降低到0.4V,節省了能源。

而在處理元件之間旋轉啟動以節省能源的「肩旋轉肌」(rotator cuff)互連,仍然保留。在晶片上有一個新的、基於封包(packet)的網路,在記憶體庫內以及記憶體庫之間,以東西向與南北向傳遞封包。

浮點支援與可擴展功能

Untether AI的處理元件支援INT4、INT8與BF16格式,以及自家的FP8格式;該公司已經決定兩種FP8格式,旨在平衡能源效率、處理量以及預測精度。該兩種格式具備4位元尾數(mantissa,Untether稱之為FP8P,表示精度)或3位元尾數(Untether稱為FP8r,代表範圍)──請注意這比Nvidia用於訓練的FP8P與FP8r格式精確1尾數位元。

根據Untether AI的說法,這種FP8的實施代表了一個「甜蜜點」──相較於BF16,其精確度損失不到0.1%,但能源效率提升了四倍;這純粹是透過量化(quantization)來實現(不需要重新訓練)。

 

Untether AI在SpeedAI晶片添加了LPDDR5介面、PCIe介面以及I/O晶片上網路(NOC)

(來源:Untether AI)

新的可擴展功能則包括2個LPDDR連接埠,可支援最大32GB外部記憶體;這可實現單晶片系統內的係數與層置換(coefficient and layer swapping),其中進行運算的網路大於晶片可容納的程度。此外還有3個PCIe 5晶片對晶片互連介面,支援主處理器到加速器以及加速器與加速器之間的通訊。

SpeedAI晶片能以M.2模組形式供應,或是12-PFLOP的6晶片PCIe板卡。Untether AI提供針對新硬體更新的軟體開發套件(SDK),能處理Untether的FP8格式量化、最佳化、實體配置,以及叢集中橫跨多個晶片或板卡的大型網路分區(partitioning)。以M.2模組與PCIe板卡形式提供的Speed AI晶片,將於2023上半年提供樣品給初期客戶。

對Chiplet友善的架構

 Untether AI也透露將以同樣的Boqueria架構打造更小的晶片,聚焦不同等級的邊緣與端點系統。該公司正在規劃基礎設施使用的25W晶片,支援自動駕駛車輛感知的5W晶片,以及電池運作裝置(具體應用案例包括執法者或軍事用的穿戴攝影機)使用的sub-1W晶片。

這有一部分是透過在需要時可使用外部記憶體的功能來實現,當一部分網路由DRAM導入能被接續處理;這可能存在延遲,但意味著更小的晶片能執行更大的網路。

此外,Beachler也指出,以Boqueria架構為基礎的晶片是「對Chiplet友善」;他表示:「因為我們有I/O NOC與周邊,能輕易置換PCI Express、加入UCI Express以支援裸晶對裸晶通訊。我們完全預期在接下來五年的某個時間點,將會有客戶想要進行裸晶之間的互連,而想要使用某種裸晶對裸晶IP。」

Untether AI是在2018年於加拿大多倫多成立,創始投資人包括加拿大退休金計畫投資委員會(CPPIB)、通用汽車(General Motors)、Intel Capital、Radical Ventures與Tracker Capital等;這家新創公司已經募得超過1.7億美元資金,擁有將近200名員工與約聘人員。

該公司是最近才宣佈通用汽車是該公司的投資者之一,雙方正在合作一項部分由加拿大安大略省投資的專案,聚焦自動駕駛車輛的感知系統。Beachler透露,這項合作將成為該公司未來車規零組件產品線的基礎。

 

本文同步刊登於《電子工程專輯》雜誌2022年10月號

編譯:Judith Cheng

(參考原文:Untether Unveils 2-PFLOPS AI Chip, Edge Roadmap,By Sally Ward-Foxton)

 

 

 

加入我們官方帳號LINE@,最新消息一手掌握!

發表評論