新版Geekbench 5改進測試卻同時帶來偏差

2019-12-05
作者 Jim McGregor,Tirias Research負責人

Geekbench 5相較於之前的版本做了一些重大改進,但新版本比以前少了一些系統級性能基準測試,甚至還額外產生了以前版本中沒有的偏差。

處理器設計社群離不開基準測試(benchmark),但兩者的關係可謂是愛恨交織。作為一種跨平台的基準測試,Geekbench在眾多可用產品中最受歡迎,它使用類似於常見應用程式的類比工作負載來測試單核心和多核心CPU性能。最近,Primate Labs發佈了其最新版本:Geekbench 5。

與舊版Geekbench 4相比,新版本所做的重大變革導致平台性能跑分發生翻天覆地的變化。一般新版本的改動都是為了解決了上一代版本的缺陷,並通常可以使之成為更完善的系統級基準測試。然而,Tirias Research分析發現新版本的一些變化讓人摸不著頭腦,並令人質疑其中一些改動的價值所在。

20191205NT31P1
新版Geekbench 5測試畫面。(圖片來源:Geekbench官網)

Tirias Research一致堅持認為,沒有一個基準測試結果可以完美展現每個應用程式或工作負載的性能。所以,一般建議用多個基準測試來評估一個運算平台,無論是智慧型手機、PC還是伺服器。要開發出一個完美的基準測試平台非常困難,因為每家公司都想得最高分,這促使他們在測試規則上玩弄花招。一些公司從中尋找可以被利用的規則,或想辦法最佳化平台來獲取更高的分數,每隔一段時間,就會發現有公司因為操縱測試平台作弊。當然,希望隨著時間的推移,基準測試會變得越來越完善。

Geekbench 5的一些增強功能包括:對新Vulkan圖形API的支援、對單個任務進行多執行緒處理(而不是處理多個單獨的任務)、機器學習測試、擴增實境(AR)、運算攝影學等,以及其他一些新興的測試負載,用於更好地衡量現代CPU和GPU的功能特性。另外還增加了一些針對Apple的更改,例如支持macOS中的Dark Mode,以及對iOS未來版本的支援等。

記憶體和電池測試被取消?

但是,新版本取消了一些系統級測試,包括記憶體和電池測試。記憶體性能對整體系統性能至關重要,而電池壽命對行動應用性能也是十分重要。對於具有較大快取(cache)的處理器來說,記憶體測試的確存在問題,因為整個測試可以在不訪問外部DRAM儲存的情況下進行,但這似乎並不該成為將整個記憶體測試全部取消的理由,用更大的測試負載即可解決這個問題。Primate Labs指出,新的應用可以更好地衡量記憶體和整體系統性能,但Tirias Research對於這種說法表示懷疑。

除了上述變化之外,新版本採用了非常精確的32位元(雙精準度)浮點來進行機器學習測試,而不是更常見的精準度級別,例如用於推理的8位元或16位元整數、16或32位元浮點、或者較新的用於訓練的bfloat16。實際上,這種改變與保持高度準確率的同時降低精準度的趨勢背道而馳,還會對行動平台的機器學習解決方案產生不利影響。

不幸的是,從一個版本到另一個版本,性能測試資料之間並沒有相關性,而且由於基線(baseline)處理器的變化,所有平台上的測試得分都明顯降低。例如,透過Geekbench 4對英特爾Core i7-6600U雙核心/四執行緒Skylake處理器進行基線測試,得4,000分。而利用Geekbench 5測試英特爾Core i3-8100四核心/四執行緒Coffee Lake處理器,僅得1,000分。

分別利用Geekbench 4和Geekbench 5對相同的平台進行測試,可以發現Android OS和AMD處理器的性能資料變化,大於Apple作業系統或英特爾處理器的變化(參看表1中的資料)。可以想見,新版本基準測試規則的變化似乎對Apple作業系統和英特爾處理器益處更大,而其中的主要原因可能是因為取消了有利於AMD處理器和Android作業系統的記憶體與電池測試。

20191205NT31P1-1
表1 Geekbench 4和Geekbench 5對相同處理器平台的測試差異。

PC Perspective也做了一個類似的比較,用兩個版本分別對英特爾處理器PC和AMD處理器PC進行基準測試,其差異也相當大——基於英特爾處理器的平台性能遠高於基於AMD處理器的平台。

儘管Geekbench 5確實有一些明顯的改進,但似乎比之前的版本少了些系統級基準測試,甚至還產生了一些之前沒有的偏差。Tirias Research建議仍然將其作為一整套基準測試中的一部分,但我們對新基準測試的整體有效性心存疑慮,如果有人僅僅引用Geekbench 5評分來說嘴,這是很令人質疑的。

除了CPU性能,Geekbench一般還涵蓋圖形、記憶體、電池壽命和其他系統功能的測試。雖然其設計適用於任何運算平台,但通常被用作行動設備的關鍵基準測試之一,包括智慧型手機、平板電腦和行動PC(mobile PC)。

(參考原文: New Geekbench 5 Improves Tests but Adds Bias,by Jim McGregor)

本文同步刊登於EE Times Taiwan 12月號雜誌

活動簡介

人工智慧(AI)無所不在。這一波AI浪潮正重塑並徹底改變科技產業甚至整個世界的未來。如何有效利用AI協助設計與開發?如何透過AI從設計、製造到生產創造增強的體驗?如何以AI作為轉型與變革的力量?打造綠色永續未來?AI面對的風險和影響又是什麼?

AI⁺ 技術論壇聚焦人工智慧/機器學習(AI/ML)技術,涵蓋從雲端到邊緣、從硬體到軟體、從演算法到架構的AI/ML技術相關基礎設施之設計、應用與部署,協助您全面掌握AI最新技術趨勢與創新,接軌AI生態系佈局,讓機器學習更快速、更經濟、更聰明也更有效率。

贊助廠商

發表評論

訂閱EETT電子報