應用無所不在 AI晶片戰況升溫

作者 : Anthea Chuang,EE Times Taiwan、顧正書,EE Times China

AI相關應用推助晶片市場的爆炸性成長,是導致AI晶片戰火越燒越旺的主因。綜合各家市調單位的觀察,未來AI晶片將進入許多領域,其中行動/消費性、資料中心、汽車,以及物聯網(IoT),將是最主要的四大領域。

在人工智慧(AI)已成為顯學的同時,其開始從雲端擴展到終端裝置,並逐漸延伸至各類應用領域,包括人們的食衣住行、農林漁牧、製造業…等等。雖然要實現「AI Everywhere」的願景也許還有段路要走,卻似乎已引爆了AI晶片,與所謂的AI「專用」晶片的新戰局。

AI晶片市場蓬勃發展

且先不論何謂AI專用晶片和AI晶片的差異,根據市場研究機構MarketsandMarkets的最新展望報告,急切的消費者所促成的龐大、複雜資料集,與不斷增加的商業應用程式,還有廣泛被採用的深度學習(DL)與神經網路,推動AI晶片市場以約40%的年成長率持續擴張。

德勤(Deloitte Insights)則以應用類別來分析。該市調機構認為,2020年,全球邊緣AI晶片出貨量將超過7.5億顆,銷售金額將達到26億美元,而且邊緣AI晶片的成長速度將遠高於整體晶片市場,預估到2024年,邊緣AI晶片出貨量可能超過15億顆,意味著其年複合成長率(CAGR)至少達20%。

 

AI運算技術能佈署在不同位置。

(來源:Deloitte Insights)

 

 

AI晶片?AI專用晶片?

隨著雲端到邊緣再到終端,從傳統農林漁牧、製造到高科技產業,AI技術逐漸發揮其效益,並驅動更多新興應用的同時,其對更高運算力的需求,也為半導體晶片產業創造新機會與更大產值。

所謂的AI晶片,若以技術架構來看,包括通用性繪圖處理器(GPU)、全訂製化特定應用積體電路(ASIC)、半訂製化FPGA,以及神經形態晶片或類腦晶片,都可稱為AI晶片。若以功能來看,根據機器學習(ML)演算法的步驟,可分為訓練(training)和推論(inference),在訓練的環節中,因為涉及需處理海量訓練資料及複雜的神經網路架構,因此需要GPU集群或是Google研發的張量處理單元(TPU) 2.0/3.0等具備強大運算力的IC;推論環節是讓訓練好的模型,利用新的資料數據去推斷、預測出各種結論,運算量相對較少,因此中央處理器(CPU)、GPU、FPGA和ASIC都能發揮作用。AI晶片如果以應用來分類,可分為雲端(伺服器)與終端(如行動裝置、無人自駕車、智慧家電…等)應用,前者需要高運算效能的IC;後者則須在一定的運算力之外,具備低功耗、低成本及低延遲等特性,因此除了前述的IC,一些行動終端中的「小」AI應用,甚至使用微控制器(MCU)即可。

AI專用晶片又是什麼?研究機構認為ASIC就是實現特定要求而訂製的AI專用晶片。耐能智慧(Kneron)創辦人暨董事長劉峻誠解釋,採用截然不同於CPU、GPU…等既有處理器的架構,專門負責處理AI/機器學習功能運算,並具備低功耗優勢的神經處理單元(NPU)即為AI專用晶片。另外,Google研發的TPU,也能歸入AI專用晶片的領域。

實際上,NPU、TPU或是視覺處理單元(Vision Processing Unit,VPU)、大腦處理器(Brain Processing Unit,BPU)…等因AI運算技術發展而出現,令人眼花繚亂的各種晶片,本質上都屬於ASIC。

AI晶片綜合效能大比拚

目前主流的AI晶片主要有GPU、FPGA和ASIC。其中,GPU由大量核心組成大規模平行運算架構,且憑藉豐富的軟體生態系統和開發工具,再加上易於部署的特點,由Nvidia主導的GPU在早期的AI運算中獲得大量採用,直到現在仍是最為普及的AI處理器。

Imagination視覺及AI、 PowerVR部門業務開發資深總監Andrew Grant表示,GPU特別適合AI訓練或者執行運算工作負載。若是嵌入式GPU在運作神經網路任務方面比嵌入式CPU快10~20倍,並且效率更高,那麼神經網路加速器(NNA)的執行速度可比性能提高了幾個數量級的CPU快100~200倍。

FPGA是一種半客製化的電路硬體,其功能可以透過程式設計來修改,平行運算能力很強。Grant認為,FPGA的確相當靈活,可以更輕鬆地部署和更新,但缺乏AI專用晶片的高效能。

ASIC是針對特定應用需求而定制開發的晶片,通常具有更高的性能和更低的總體功耗。但是,ASIC不能適應快速變化的AI網路模型和新的資料格式,如果沒有夠大的出貨量可能難以抵消高昂的開發成本。在性能表現上,針對特定領域的ASIC晶片通常相當具備優勢,如果出貨量可觀,其單顆成本可做到遠低於FPGA和GPU。

像TPU、NNA或深度學習加速器(DLA)之類的ASIC,旨在以超高效率運作AI任務為首要設計目標,要比其他替代方案快幾個數量級,並具有諸如多執行個體(multi-instance)的高效能比(TOPS/watt)功能。隨著AI應用真正的實現,專用的ASIC晶片量產成本低、性能高、功耗低的優勢將逐漸凸顯。

 

簡單比較FPGA、GPU和ASIC架構的性能、功耗和靈活性。

(製表:EE Times China)

 

劉峻誠表示,屬於ASIC的AI專用晶片NPU,除了承繼ASIC的特性,且具備足夠的運算力外,相較於CPU或GPU,NPU最大的優勢為功耗低、晶片尺寸小、無須散熱裝置,以及可打造的AI應用相當多元。根據美國NSF的測試報告,NPU與CPU、GPU執行相同的AI功能時,NPU單位功耗可貢獻的運算力可高於CPU及CPU的千倍。因此,NPU這類AI專用晶片在AI市場,不但有其存在的價值與必要性,未來,更可望佔有一席之地。

針對以提升現有通用型處理器來滿足AI的各項需求,專用晶片是否有真其必要性的討論,Arm應用工程總監徐達勇表示,若從處理器的角度來看AI技術,目前市場上有使用CPU、GPU、DSP、專門為AI設計的處理器與加速器等不同架構。但這些不同架構的處理器該如何選擇、運用,或是進一步整合、做成專用晶片,這其中的判斷標準應從成本,以及所屬特殊領域的市場大小來看,比較不會從技術成分來考量。

技術成分指的是,思考哪些應用應該運作在CPU、GPU或者其他處理器架構上。這些可能是針對功耗、運算力,甚至是安全性等方面的需求來判斷。徐達勇認為,市場一定會需要AI專用晶片,因為未來世界AI將無所不在,對功耗、運算力的需求各異,應該會有針對不同領域需要的AI專用晶片誕生。

AI晶片戰火已點燃

無論是傳統通用型AI晶片或AI專用晶片,皆因AI技術衍生的龐大商機而「熱血沸騰」。不僅如此,近期新冠肺炎疫情的發生與全球性的蔓延,更是加深各國政府、企業、民眾對於AI的需求。因此,各類晶片皆持續精進其運算效能,以及其他特性,進一步搶佔市場商機。

CPU與GPU固守雲端/高階運算

在雲端訓練和推理運算領域中,AI晶片發揮巨大的加速作用,然而,它也面臨著一些挑戰。作為AI運算力的主要應用,發展雲端架構時,需要解決運算力性價比與通用性問題。

Grant指出,在雲端培訓中,瓶頸在於必須非常擅長運作特定類型的工作負載。解決之道通常是透過開發可能會改變遊戲規則的新框架所驅動,這樣的好處之一是可以在早期階段開放這些框架,這樣就可以在考慮一般應用任務的情況下規劃對未來硬體設計的任何特定要求。在雲端推論方面,瓶頸不在設計本身,而是批量生產的延遲,所幸由於邊緣AI可以在專為AI設計的晶片上更成功地運作,因此這個問題已被克服。

眾所周知,在雲端領域,GPU一直位居AI晶片霸主地位。劉峻誠表示,越通用的AI應用,如雲端、資料中心伺服器…等,對CPU與GPU的需求,以及其可發揮的空間就越大。此外,為滿足雲端須不斷提升運算力的需求,Google針對其雲端架構研發的TPU,為AI專用晶片跨足雲端領域的先鋒。

值得注意的是,有業者認為,目前市面上的CPU、GPU效能已無法滿足AI運算需求,徐達勇表示,這可能是事實,但主要是看應用場景的需求,以及能否滿足運算、效能、功耗與彈性等多個象限的綜合要求。從現實面來說,如果目前市面上的CPU處理機器學習的效能真的不夠,即得加裝加速器。劉峻誠則提醒,在雲端AI領域,若因CPU效能不足而增添一顆NPU,或其他AI加速器,不僅成本會增加,且在單位面積相同時,AI處理部分的效能相對會被減弱,相關業者需審慎考量。

ASIC/NPU在終端AI優勢盡顯

雲端需要通用型GPU及CPU等AI晶片,而在端的部分,則是ASIC的天下。Grant認為,ASIC的架構旨在運作低功耗要求的AI應用,使其非常適合嵌入式裝置,如自動駕駛車/無人駕駛計程車(Robot Taxi)、倉儲機器人或邊緣裝置。

另一方面,AI晶片在邊緣運算和終端開發中面臨的挑戰是,它們能否部署在其中的多種環境。Grant表示,由於生產晶片是一項昂貴的業務,因此晶片供應商經常設法最小化成本和晶片的面積,且業者展望未來時,也在系統單晶片(SoC)中建構靈活性和功能,使SoC能適應未來的發展,並進一步能夠走到大規模銷售的階段。

劉峻誠再次提及NPU的最強優勢在於低功耗,以及具備足夠且專注的運算力,因此NPU在物聯網這類需要以電池供電,對低功耗要求相當高的AI終端裝置上,如穿戴式裝置、智慧門鎖…等,NPU都是相當合適的機器學習及AI專用晶片。

值得注意的是,耐能智慧的NPU已有邊緣伺服器的合作計畫正在進行。劉峻誠強調,NPU等AI專用晶片並非沒有能力進軍雲端AI市場,而是研發NPU等專用晶片的有志之士大多為新創公司,資金較為拮据,若是有「口袋夠深」的業者揭竿而起,相信未來將出現NPU晶片巨頭,並進一步擠壓GPU目前的AI市場空間。不過,劉峻誠亦坦言,由於NPU是半導體、AI業界中的「新成員」,因此目前最大的挑戰在於如何說服客戶改變想法,接受並採用NPU這種全新架構的AI專用晶片。

GPU將成弱勢?促Nvidia併Arm

為何以運算力高強著稱的GPU未來的空間會受到擠壓?這是由於,從靈活性與效能來分析CPU、GPU與NPU,可以發現靈活性最佳的是CPU,而效能最好的是NPU,GPU則是介於兩者之間,似乎有些不上不下。因此,有業者認為,GPU若不思索新的突破方式,很可能遭受CPU,以及NPU夾擊。

這可能是促使Nvidia日前宣佈以400億美元的天價收購Arm的隱藏因素之一。Nvidia針對此購併事件發出的聲明稿中,Nvidia創辦人暨執行長黃仁勳表示,兩家公司的結合「可以將運算能力從雲端運算、智慧型手機、個人電腦、自動駕駛車和機器人推向邊緣物聯網,並把AI運算擴大到全球的每一個角落。」

資策會產業情報研究所(MIC)資深產業顧問兼主任楊中傑則從邊緣AI運算的發展趨勢分析,他指出,邊緣運算自2015年獲得廣泛應用後,已歷經並完備終端設備「本地預處理」、雲端與邊緣端形成「彈性運算架構」兩個階段。2021年之後可望加速實現「本地智慧化」的邊緣運算第三階段,也就是可在無雲的情境下,實現「現場去中心化」智慧預測網路,而「現場去中心化」智慧預測網路即是在微型物聯網裝置中加入AI。因此,Nvidia收購Arm的顯著動機,即是為了抓住GPU無法進入的物聯網微型裝置中的AI商機。

然而,Nvidia完成收購Arm的程序後,也許能順利打造從雲端到終端End-to-End完整的AI運算架構,但另一方面,也有市場相關人士提醒,此舉可能會使得Arm流失既有與未來的潛在新客戶。

依應用所需「混搭」

資策會MIC表示,為滿足AI高效能運算(HPC)的需求,各類IC不但須提升運算力,同時還要兼顧功耗的限制,才能在越發競爭的AI晶片市場中脫穎而出。目前各家大廠積極嘗試多元運算架構(如多核心或CPU+GPU+ASIC)的發展方向,以期透過多元運算最佳化工作分配,能在達成運算需求的同時,滿足功耗的限制。資策會MIC並指出,ASIC在特定應用的強大運算能力將為多元運算架構運用的重點,勢必吸引許多公司及新創團隊的投入。

劉峻誠舉例說明,智慧型手機即為CPU+GPU+ASIC/NPU此種多元架構最佳的範例。即使NPU與GPU或CPU的設計架構有著根本上的極大差異,但是這些異質處理器之間彼此又能有效溝通,實現智慧型手機的AI相關應用之餘,還能讓手機的續航力足以符合消費者期待。

然而,這對相關業者而言將是新的挑戰。徐達勇指出,CPU+GPU+ASIC等異質設計挑戰在軟體,不在硬體。

Arm首席應用工程師沈綸銘解釋,應用裝置設計架構中,機器學習使用最頻繁的是數據科學家,以及做很多使用案例和演算法的公司,其位在最頂層;研發晶片的業者則是把CPU、GPU、NPU整合,處於最底層。而上層的人員開發演算法時,需要越虛擬越好,且無須擔心在某一層該指定由CPU或GPU去做,或者哪個硬體上的放了多少快取(Cache)、放了多少DRAM,以及各硬體之間的關係。

由於希望最上層的使用者能完整利用整體的效能並產生綜效,加上硬體IP是由Arm定義,了解如何在底層做最佳化,因此Arm在中間層提供了一些軟體函式庫(Software Library),以開放方式貢獻到整個生態系中,所有的開發者皆可使用,透過中介軟體(Middleware)可自動分配不同的作業負載(Workloads)在不同的運算單元上。沈綸銘認為,這樣做的好處是,也許使用的CPU效能不見得最棒,但可以加總使用在GPU、NPU叢集的運算力,而這才是異質運算軟體的關鍵。

別爭!各有揮灑空間

從上層應用案例/作業負載該選用何種晶片的角度來分析,沈綸銘表示,一般人認為AI似乎需要很大的運算力,但其實有很多運算規模較小的AI應用使用CPU或MCU就可以做到。例如只要進行10個物件辨識,在很多開放網路(Open Network)如Cifar-10、MNIST用Cortex-M就可以做得到,好處是不用改硬體,不需要用專用的晶片;但如果需要辨識100個物件,畫素要從Full HD提升到4K/8K,這就需要額外的運算力。

因此,AI應用主要仍是看其對應的需求來選擇該使用何種處理器晶片…

…究竟該如何選擇最適合目標應用的AI晶片?市場會做出採用何種AI晶片的最佳解答嗎?繼續完整閱讀本篇精彩報導,請點擊免費下載《電子工程專輯》雜誌2020年10月號!

 

 

掃描或點擊QR Code立即加入 “EETimes技術論壇” Line 群組 !

 EET-Line技術論壇-QR

發表評論