AI加速器性能只用TOPS是比不出來的!

作者 : Sally Ward-Foxton,EE Times歐洲特派記者

TOPS數字越高並不一定就有更高的處理量,尤其是在樣本大小為1的邊緣應用中...

在AI加速器世界,晶片的性能通常是以既定演算法的TOPS (tera operations per second)來表示,但有很多理由顯示,這或許並不是最好的參考數字。如美國的AI加速器開發商Flex Logix執行長Geoff Tate所言:「客戶真正要的是每1美元的高處理量(throughput)。」

Tate解釋,TOPS數字越高並不一定就有更高的處理量,尤其是在樣本大小(batch size)為1的邊緣應用中;而諸如資料中心等��用,可透過以較大的樣本平行處理多個輸入來提高處理量(因為就會有多餘的TOPS),但這通常並不適合邊緣裝置。

舉例來說,Tate比較了Flex Logix的InferX X1元件以及市場上的某款領導級GPU,雖然後者的處理量是3~4倍,TOPS是10倍,但需要用到8倍的DRAM;相較之下Flex Logix的元件架構能節省很多資源。

20191216_FlexLogix_NT01P1

Flex Logix的InfereX X1預計2019年底投片,將提供8.5TOPS左右的算力。
(來源:Flex Logix)

但Tate提出的每1美元處理量指標聽起來很合理,實際上也不是都能很容易找到可靠的元件產品價格,以直接進行比較。而像是需要多少DRAM或是某款特定晶片有多大的佔位面積能顯示成本,但並不精確。

另一個把TOPS當作指標會遇到的問題,是通常會以執行ResNet-50模型來進行量測。「ResNet-50並不是客戶關心的量測基準,只是人們最常用的;」Tate解釋:「這個模型不是非常重要的原因是,它使用非常小的影像。」

ResNet-50被使用了一段時間而且成為比較TOPS數據的既定標準,但現在被認為已經過時。雖然有很多繼續使用這個標準的好理由,包括至少需要讓所有接下來的分數能繼續進行比較,還有這是所有類型裝置(甚至是微小裝置)都能使用的標準,但它不足以挑戰現今為資料中心推論打造的巨大晶片,也不能充分顯示它們的性能。

除了既定標準,當然也有不同的產業組織為AI加速器晶片開發出量測基準,例如MLPerf、DawnBench、EEMBC…等等。而儘管其中MLPerf已經公布了一批推論晶片的跑分結果,但Tate認為這個量測基準太「資料中心導向」。

他舉例指出,在單資料流(single-stream)情境中,考量邊緣裝置一次處理一個影像(樣本數為1),性能指標為90百分位數(90th percentile)延遲;「在邊緣,我不認為客戶會想知道90百分位數,他們要知道百分之百:你能給我什麼保證?」例如自動駕駛就是一個非常重視延遲表現的邊緣應用。

20191216_FlexLogix_NT01P2

像是物件偵測等複雜影像處理任務的表現性能,會更適合用來比較現在的高階AI加速器。
(來源:Flex Logix)

對於那些在資訊於處理器核心與記憶體之間傳遞時會遭遇匯流排競爭(bus contention)的系統,長尾延遲(long tail latencies)是一個典型的問題。雖然目前有很多裝置都使用了高頻寬記憶體介面,但因為競爭可能發生,仍然會有一個理論上的尾延遲。

Flex Logix以FPGA為基礎的推論處理器設計,號稱每一次都有差不多的延遲時間(另一家AI加速器業者Groq也聲稱他們有同樣的性能,但堅稱其元件並非FPGA)。

Tate指出:「因為我們在核心中使用共同創辦人發明的FPGA互連,有一個記憶體到乘法累加器(multiply accumulators)、再到觸發邏輯並回到記憶體的專屬路徑,因此沒有競爭問題;」資訊流通順暢,利用率沒有到100%,但超越其他所有架構。

而儘管市場競爭激烈,AI加速器新秀如雨後春筍,Tate對於Flex Logix的前景信心十足;「當真正的晶片問世、開始執行軟體並且展示,你也看到價格與性能…很快,市場上沒辦法跑到前四分之一的公司就消失不見。」

Tate預測,未來AI加速器領域只會有10~15家晶片公司的生存空間,以不同的市場(包括訓練、推論、資料中心、邊緣與超低功耗…等等)為基礎;那些在市場上的解決方案在運算性能上跨越很大的數量級,因此不會全部都是直接彼此競爭。

他認為,未來一到兩年就會有大量的公司被淘汰,套用一句投資之神巴菲特(Warren Buffett)的名言:「當潮水退去,你就會看到是誰在裸泳。」

編譯:Judith Cheng

(參考原文: AI Accelerators: TOPS is Not the Whole Story,by Sally Ward-Foxton)

發表評論