擁抱Edge AI新時代 運算/儲存更貼近資料所在

作者 : Winbond

全球半導體記憶體解決方案領導廠商——華邦電子(Winbond)日前聯手業界巨擘舉辦「Winbond AI TechDay—探索AI關鍵技術」研討會,邀請來自AI生態系­­的業界專家,探討從Cloud、Edge到Endpoint的運算、記憶體、IoT裝置資料傳輸與安全防護以及AI方案選擇,深入剖析2021年及其後的智慧技術與市場發展前景...

人工智慧(AI)技術正在改寫疫情後的世界。伴隨越來越多的終端裝置及其資料爆量成長,AI迅速地從雲端(Cloud)擴展到邊緣(Edge),在人臉、影像與聲紋辨識等應用導入運算,有效地追蹤並控管人員安全以協助抗疫。為了提升物聯網(IoT)終端裝置所需的運算與處理能力,業界巨擘與新創公司紛紛投入AI領域,相互串聯並整合運算、儲存與安全等關鍵資源至更接近終端(Endpoint)位置,打造可實現裝置智慧化的AI晶片及其相關軟硬體解決方案。

全球半導體記憶體解決方案領導廠商——華邦電子(Winbond)日前聯手業界巨擘舉辦「Winbond AI TechDay—探索AI關鍵技術」研討會,邀請來自AI生態系­­—包括AI新創公司耐能智慧(Kneron)、處理器IP業者安謀國際(Arm)、超低功耗方案先驅恩倍科(Ambiq)、嵌入式安全方案供應商恩智浦半導體(NXP)以及資策會(III)的業界專家,探討從Cloud、Edge到Endpoint的運算、記憶體、IoT裝置資料傳輸與安全防護以及AI方案的選擇,深入剖析2021年及其後的智慧技術與市場發展前景。

AI運算:從CloudEdgeEndpoint

AI技術如今已深植於各應用領域。根據IDC預測,今年包括軟體、硬體和服務在內的全球AI市場營收可望成長16.4%,達到3,275億美元;而到了2024年,這一市場預計將突破5,000億美元大關,五年間複合年平均成長率(CAGR)為17.5%,總營收將達到5,543億元。

IDC的資料並顯示,2025年全球預計將有超過140億個IoT裝置且持續增加中,其所傳輸的資料量也越來越多。到2025年,全球所產生的資料量將從2018年約從33ZB快速增加到175ZB,其中約有一半以上(>90ZB)都來自IoT裝置。為此,必須大量增強在雲端與邊緣端的運算單元,才足以因應如此龐大的資料量。

IDC預估2025年時,全球所產生的資料量將達到175ZB。(來源:IDC

另一方面,在邊緣與雲端處理之間傳輸如此龐大的資料量,頻寬是否足夠?是否存在資料外洩的風險?如果能將一些簡單的應用直接在邊緣端的終端裝置進行處理,就能減緩雲端的負載,並有助於減少延遲。因此「邊緣運算」(Edge Computing)應運而生,成為讓資料處理和內容收集更靠近資訊來源的重要途徑。

「邊緣運算將在未來幾年內普及。」華邦電子DRAM產品行銷部經理曾一峻解釋,Cloud AI雖然能處理訓練和推論,而當Endpoint和IoT裝置的資料量越來越多,要將資料上傳至雲端進行處理,就會增加能耗、延遲和工作負載。因此,將任務交由Edge進行分散式運算,能夠實現更快的回應。

NXP大中華區邊緣運算事業群市場行銷工程師李宜儒認為,在當今「第五波運算」(5th wave of computing)時代,不再像以往一樣鎖定於電腦或智慧型手機等特定裝置,而是泛指冰箱、車輛、電視或閘道器等各種終端應用的數位化。為了加速這些終端應用落地,運算從雲端轉移到邊緣並帶來許多好處,包括「降低延遲,而提高了使用體驗;資料儲存於本地,不僅減輕雲端的儲存、功耗和運算負荷,也降低開發人員對雲端的依賴。」

華邦電子快閃記憶體產品企劃技術經理黃仲宇更明確指出,驅動邊緣運算成長的幾個重要指標包括網路頻寬限制、資料傳輸時間延遲、資料安全性與隱私性、整體系統功耗和成本等方面考量。「在邊緣端進行處理不但省去來回傳送至雲端的頻寬、成本、功耗,同時減少資訊外洩的風險。」

驅動邊緣運算成長的重要「推手」。(來源:Winbond

特別是在疫情爆發後,邊緣運算比以往更為關鍵。透過邊緣運算改善終端使用者的網路性能,讓越來越多的遠端居家工作和學習變得更輕鬆。

當資料無需傳送上雲端,不僅讓終端裝置在進行辨識或判斷時更即時,也更能免於駭客從中破壞的風險。Kneron創辦人暨CEO劉峻誠也看好邊緣運算有助於釋放頻寬壓力,並能以低延遲提高運算速度,同時降低AI整合至裝置的成本。「尤其是在後疫情時代,將運算力下放到終端裝置,還能避免出現斷電或斷網問題。」

Edge AI:後疫情時代關鍵

「危機就是轉機。」劉峻誠說,儘管新冠肺炎(COVID-19)疫情似乎讓大家「困在家中」,但也為產業帶來智慧化、自動化與數位化蓬勃發展的契機。他並強調,「Edge AI是後疫情時代的關鍵。」

Edge AI在後疫情時代能創造什麼價值,為防疫帶來什麼效益?他舉例說,為了確保安全性,疫情帶動了非接觸式AI應用需求快速成長,包括門鎖、門禁等透過人臉或手勢辨識的AI經典應用,而疫情監控溫感機則可辦識人員的體溫或者是否維持社交距離,有效追蹤管控人員的安全。

AI還提供了預警功能。他以加拿大新創公司BlueDot為例說明如何透過AI早期預測疫情的發生。BlueDot採用自然語言處理,針對全球各地社群媒體討論的關鍵字、航班到離城市的動態以及動植物疾病網路等進行分析,在疫情爆發之前即已提早掌握到病毒大規模傳播的跡象。

根據市場研究公司Gartner的資料顯示,AI晶片市場自2018年至2025年的年成長率達到了45%。Edge AI市場雖較Cloud AI稍晚出現,但其成長卻有「後來居上」之勢,主要的市場動力來自於安全監控以及智慧家庭。但過去一年來由於疫情影響,帶動了IoT醫療保健領域、PC、智慧車輛、智慧相機與智慧門鎖等領域開始大幅成長。

然而,現有的Edge AI方案存在效率不佳、成本過高或是難以規模部署的挑戰,而Cloud AI儘管有助於提高效率、可負擔且能大規模部署,但卻存在使用者隱私的顧慮。為此,Kneron推出具備極低功耗與超高處理能力的新一代AI晶片,透過精準的3D AI技術智慧化辨識「看到」或「聽到」內容,為智慧建築、安全監控、IP CAM或汽車等應用打造安全且「最強大腦」。

Kneron總經理特助暨資深協理楊英廷介紹,該公司去年量產首款晶片KL520 SoC,其核心技術在於KDP520 NPU。最近推出新一代AI晶片KL720 SoC,較KL520大幅提升運算力到1.4TOPS,除了支援2個M4核心CPU,還增加一顆DSP,加強對於AI前後處理的能力,而其搭載華邦的記憶體也從LPDDR2升級至LPDDR3。此外,除了影像相關的AI處理和卷積神經網路(CNN)應用,KL720還可支援LSTM時間序列或聲音相關的AI模型。

相較於競爭對手的Edge AI晶片,KL520的優勢在於省電。例如平均花費1W的功耗可處理16張影像,而同級的競爭產品只能做到3.78張。此外,在執行公開的NN模型時,KL520/720平均每秒可計算的張數與表現也較競品更佳。

楊英廷說,除了MAC效率,設計理想AI晶片的另一個瓶頸在於如何提高整個資料流程的效率。除了盡量減少資料在雲端與邊緣端的移動、加快移動的速度,一個更有效率的作法是增加片上記憶體(On-Chip Memory)容量,減少將資料傳至DDR,讓MAC留在記憶體,以及在記憶體端進行一般操作,提升與神經處理單元(NPU)協作的效率。為此,Kneron正與華邦共同研究,期望有助於提升整個資料流程在AI晶片的運作效率。

增加On-Chip記憶體容量,減少將資料傳至DDR,有助於提高資料流程效率。(來源:Kneron

AI將邊緣運算推向極限

在人工智慧物聯網(AIoT)時代,運算正由雲端擴展到邊緣。Arm延續來自智慧型手機的成功經驗,也在向上、向下延伸IoT與AI相關應用,擴展到感測器、IoT裝置、自駕車以及超級電腦等領域。Arm首席應用工程師沈綸銘指出,業界已廣泛採用Arm Cortex-M、Cortex-A系列,大量部署於各種IoT應用場景。針對未來的IoT裝置,業界還需要的是更多的機器學習(ML)功能、快速啟動以及迭代其技術的能力。

由於大量的資料在終端產生,Arm認為「終端AI」(Endpoint AI)是指具有自主思考與處理資料的能力,從而能夠最大化由資料而來的洞察力。沈綸銘並以「3個V」來定義Endpoint,包括語音(Voice)、視覺(Vision)和振動(Vibration),分別為終端裝置帶來聲音、影像以及振動等不同形態的輸入資料。

ArmEndpoint AI定義為包括語音(Voice)、視覺(Vision)和振動(Vibration)3V。(來源:Arm

Endpoint AI裝置持續收集資料,並導入諸如Cortex-55 CPU以及Ethos-U55 & Ethos-U65等微神經網路處理器(microNPU)執行運算與ML,讓原始數據成為有意義的資料或應用。除了效能之外,Endpoint AI還需要差異化,而且必須在推論過程中保持安全、軟體工具易用性以及賦予開發者最佳化的體驗。

為此,Arm針對Endpoint AI力推Cortex-M55處理器+Ethos-U55 microNPU的組合,以提升基於Arm架構的IoT方案效能,並兼具節能省電與成本效益。如果需要更高效能,則可以採用Ethos-U65搭配Cortex-A核心。而TinyML則是Endpoint AI或AIoT新崛起的次領域,可以讓最小型終端裝置執行ML處理,這些裝置內建精巧的微控制器(MCU),且功耗僅幾毫瓦。

Arm近日並針對AI應用與安全運算推出最新一代Armv9架構的CPU,以及最新的GPU與系統IP。新的v9架構可為消費性裝置大幅提升30-35%的峰值效能,預計在2022年可望為裝置帶來更高效能的遊戲、VR和ML應用。

致力於研發超低功耗解決方案的Ambiq也看好Endpoint AI的發展潛力,可望有助於推動其核心的「次閾值功率最佳化技術」(Subthreshold Power Optimized Technology;SPOT)進一步成長。

Ambiq業務處長Eric Chu介紹,相較於一般MCU核心工作電壓約1.2V,採用其SPOT平台的MCU可在0.3V核心電壓下運作。「儘管如此接近0V臨界電壓,在製程中易於受到雜訊干擾,但該技術配合台積電(TSMC)的CMOS製程和驗證,至今已廣泛出貨至全世界。」

因應COVID-19疫情爆發,帶動數位醫療與非接觸式應用蓬勃發展,Ambiq看好從‘Nice to have’的巿場應用轉變成‘Must Have’的高價值終端市場領域前景­­,包括非接觸式的追蹤手環、智慧手錶與個人健康監測器等數位醫療應用,以及聲控裝置、行動支付與智慧門禁等非接觸式應用經常需要長時間使用,加上這一類Endpoint AI或IoT裝置都必須在MCU中處理大量演算法以進行生物或聲音辨識,這類型產品應用特別注重電池壽命和使用時間。

Endpoint AI典型系統必須符合mW級功率預算:從感測、訊號處理與儲存、推論、決策、通訊到電源管理的過程中,採用2個AA電池以1mW低功率持續運作一整年。(來源:Ambiq

儘管目前大多數應用仍在雲端進行運算,但隨著智慧終端裝置快速增加,為了減輕雲端的工作負載,朱宏庭預計市場上將會出現更多以電池供電的產品,包括個人語音助理、預防性維護、機器人、即時翻譯等領域將會湧現越來越多的Endpoint AI應用與裝置。

為了進一步降低功耗,Ambiq最新一代Apollo4 MCU搭配華邦256Mb x8 HyperRAM,實現功耗更低的混合睡眠模式(Hybrid Sleep Mode;HSM)設計,能夠延長IoT和Endpoint裝置的電池壽命,預計2022年量產。

NXP進一步強調邊緣運算背後的重要推手——AI/ML技術。李宜儒說,從AI/ML的成長趨勢來看,TensorFlow或Caffe等開放源碼架構從2018年開始出現,預計在接下來的一年,大多數使用者在熟悉這些架構後,可望開始在終端裝置上實現自動語音或人臉辨識等智慧功能,NPU或加速器等高效能AI晶片,也成為越來越多的OEM/ODM的選擇。

因應邊緣運算時代,NXP針對ML推出帶有NPU或加速器的SoC,包括14nm FinFET製程的i.MX 8M Plus NPU (2.3TOPS),搭配2或4核Arm A53系列與M7 MCU,更具省電優勢,可用於物件的安全監控、辨識人車或即時分析等。i.MX RT1170跨界MCU採用1GHz M7核心、400MHz Cortex-M4,以及華邦W25N01 Flash,適用於消費電子、工業和汽車市場。

此外,還有為邊緣智慧而設計的eIQ ML套件和推論引擎。NXP並預計在今年下半年推出DeepView RT ML解決方案,提供從雲端訓練、GUI選件模型、優化模型和推論到部署至終端裝置的完整解決方案。

AI:資安的防禦還是破口?

COVID-19疫情帶來遠端工作與學習、更多的線上活動等生活型態的改變,伴隨而來的是網路攻擊事件快速增加,但這並未影響人們使用更多的連網裝置。根據市場資料預計,2025年全球IoT裝置數量將從2020年的310億台成長到750億,可預見的是將會出現更多的網路攻擊。

尤其是駭客發起的網路攻擊持續與科技進展同步,從電腦、網路到行動裝置也從IT跨入OT領域,甚至升級成國安威脅。資策會資安科技研究所(CSTI)技術總監田謹維指出,近來,駭客已經開始透過AI和ML進行攻擊,甚至透過AI技術最佳化其攻擊策略或變種病毒。

為了有效因應網路安全挑戰,企業開始導入AI作為資安防護,包括對於網路攻擊的偵察、預測以及加以反應。然而,AI本身的一些資產就可能是資安威脅的目標,如模型、資料處理、管理策略、網路或ML平台等,因此在導入AI時必須更小心謹慎。儘管保護演算法和敏感資料成為AI技術使用的關鍵,但從另一方面來看,這樣的AI技術也開啟了資安的破口,而非保護。

因此,華邦電子安全解決方案行銷企劃處技術經理李亞玲指出,AI的特性使其成為資安防護的利器,但同時也成為被攻擊的目標。為了確保AI的安全性,就必須確保資料的完整性、隱私性、模型、保密性、軟體/硬體安全。

企業資安人員如何將AI用於網路安全流程?資策會資安技術總監田謹維介紹,AI/ML方案包括4個主要的步驟,第一步是擷取特性,其次是選擇合適的AI/ML演算法,第三是訓練模型,並根據不同的演算法與參數選擇效能最佳的模型,最後再採用訓練模型投入實際應用,分類或預測未知資料。

從資訊安全的生態來看,為了建立一個全面的IoT安全生態系統,其中包括五個主要的結構組成:安全法規和安全認證、雲端安全性、平台安全性以及軟體/硬體安全性。每個結構層級除了必須確保有效的安全保護,大眾對於使用符合安全標準產品的意識更不可或缺。

李亞玲強調,確保AI軟硬體安全的基礎就在於「信任根」(Root of Trust;RoT),而信任根的基礎可以是Secure Flash、Secure Element、TPM、Apple T2和Google Titan等安全晶片。其中,Secure Flash較具成本優勢,所需花費的設計資源也較少。華邦為此提供具有不同等級的Secure Flash安全方案,包括符合CC EAL2、ISO 26262 ASIL-C ready、工業級IEC62443標準的W77Q,適用於一般消費產品;以及適用較高安全級的W75F,可為程式碼和資料提供完整保護,並通過CC EAL5+和ISO26262 ASIL-D ready車規認證,有助於為客戶簡化認證程序。

確保AI軟硬體平台安全的基礎就在於「信任根」(RoT)。(來源:Winbond

為了打造可靠且安全的AI系統,李亞玲說,在選用Flash時必須考慮安全啟動(Secure Boot)、安全儲存重要的AI參數,以及抵抗攻擊的能力。採用安全的NVM則有助於抵抗攻擊,降低被攻擊的風險。」

因此,預期NVM的安全性將日益受到重視,甚至將成為”Must Have”。李亞玲說,「你可以把儲存在NVM的資料想像是皇冠上最重要的寶石,也是最有價值的部份,其中所儲存的通常是密鑰、用戶資料、ML訓練數字或是AI演算法等」。

在歐洲ENISA定義的AI網路安全威脅中,華邦可協助抵擋意外損害、惡意活動/濫用(如未授權的數據轉移或存取),以及防止數據或演算法遭竊/攔劫/威脅等。在AIoT時代,從晶片的生產到終端的使用,每一個環節的資訊安全都很重要,對於作為記憶體製造商的華邦而言,確保產品的設計、製造、測試都是在secure environment下完成,提供安全無虞的Secure Flash做為安全的基礎,是華邦所能盡的心力。

華邦提供具有不同安全要求的Secure FlashW77Q適用於一般連網裝置,W75則支援行動支付、智慧電錶、eIDV2XiUICC等較高安全級的應用。(來源:Winbond

決戰Edge AI:記憶體+運算

訓練和推論是AI運算的兩大重點。訓練是透過雲端不斷增加其資料庫,主要透過CPU/GPU/TPU針對存在的資料庫辨識新事物。推論則較多發生在邊緣端,根據已訓練的資料庫與模型推論不存在的新事物,這一類特定應用通常採用ASIC、FPGA或DLA。

黃仲宇以運算力(性能)、成本、功耗、AI演算法及其軟體應用的相容性(靈活性)以及硬體的相容性等指標概念來初步比較各種AI晶片。CPU具有軟硬體相容的優勢,運算能力強大,但受限於馮紐曼架構拖累其傳輸速度。GPU雖然也受限於馮紐曼架構,但整體算力優於CPU,但其功耗和成本表現相對沒這麼突出。ASIC (TPU)針對特定應用而開發,在軟硬體相容性上會受到部份限制。

FPGA已發展多年,不但具有軟硬體相容性,運算能力、成本、功耗雖不是最好但也足夠,算是理想的折衷方案,因此建議可作為後進業者切入AI 晶片開發時的理想選擇。

主要的AI晶片比較。(來源:Winbond

為了加速IoT和自駕車等終端裝置的龐大資料量需求,AI和神經網路處理如何更有效率地做出即時判斷或推論?曾一峻強調,「記憶體在此扮演不可或缺的角色。」這是因為神經網路資料流量龐大,甚至接近記憶體運算,所採用的AI神經網路引擎及其解析度,影響著記憶體儲存的頻寬與尺寸,特別是在邊緣運算的影像處理。

記憶體在AI/ML的角色

為了在終端和邊緣端的MCU上實現機器學習,業界開始採用輕量級智慧模型TinyML,以進行智慧電錶的辨識等簡單的影像分類應用或是KWS(Key Word Spotting)簡單的語音辨識。特別是在Google TensorFlow Lite或TF Lite Micro的推動下,TinyML將加快Endpoint AI (AIoT)部署,曾一峻預計,在未來3-5年將可看到由此帶動更多的AIoT應用落地。

那麼記憶體在AI晶片中扮演什麼角色呢?曾一峻說,在傳統馮紐曼架構下,記憶體主要考慮的指標包括OS大小、AI模型(如Tiny Yolov4)、輸入資料以及整體大小。而就MCU、MPU和AP Multicore來看影響記憶體介面的幾個應用,包括5G,主要將採用LPDDR4,Wi-Fi 6多採用DDR3,至於下一代的Wi-Fi 7預計仍將以DDR3/DDR4為主。

華邦GP-Boost DRAM可實現低功耗和高頻寬,適於終端或邊緣運算所需要的規格與效益,並有助於推動Endpoint/Edge AI在未來成為現實。GP-Boost DRAM系列功耗涵蓋0.05-0.4W,頻寬覆蓋2.13GB/s-17.04GB/s。32Mb-256Mb ULP HyperRAM具備0.3-0.5TOPS效能,採用Cortex-M7/M55+U55 NPU,主要用於簡單的聲音處理或影像辨識;效能為0.5-1TOPS的512Mb/1Gb LP2 DRAM採用Ax+N37,應用於人臉辨識;1Gb LP3針對即時影像辨識與物件偵測應用,運算效能為1.0-4TOPS。4.0TOPS以上運算效能的1-2Gb LP4/4x LPDDR4方案則以A5+N77為主,應用於邊緣運算。

專為Endpoint/Edge AI打造的GP-Boost DRAM系列。(來源:Winbond

32/64/128Mb系列HyperRAM已量產,廣泛用於MCU裝置上的音訊/視訊AI。曾一峻說,低功耗是HyperRAM系列的核心賣點,以最新的256Mb HyperRAM為例,能夠降低電流到原本預估值的一半以下,更深層的HSM還可以降到31mA的低電流,更有助於AIoT導入。此外,華邦現有的HyperRAM 2.0/2.0e產品支援高達200MHz/x8(2.0)/x16(2.0e)/24BGA&WLCSP,並正著手開發HyperRAM 3.0/3.0e。

終端記憶體運用

針對像遠端監控、無人機、自駕車、智慧感測器或機器手臂等Endpoint應用,由於將以往在雲端/伺服器的部份應用搬到了終端裝置的晶片,透過AI演算法的應用,不僅更精確、更快速反饋,也減少了資料延遲的顧慮。然而,在晶片中加入AI演算法和編碼功能,還需要搭配高品質、高可靠性、高資訊安全度且低資料時間延遲的Flash進行編碼的儲存。

黃仲宇表示,針對Endpoint應用所需的Flash著重在資料傳輸效率、記憶體容量、成本、資安以及可靠性。為此,華邦推薦W35N高性能OctalNAND Flash、W25N JW待機功耗的選型,以及高資安度的W77Q/W75F TrustME SecureFlash。OctalNAND Flash搭配8 I/O介面,每秒最快可達240MB/s超高資料傳輸效能。針對智慧感測器和機器手臂則著重於確保資料正確回傳,推薦符合工規且具成本效益的儲存選型,如W25N/W29N成本NAND Flash、W25N JW低待機功耗的選型以及W77Q/W75F TrustME Secure Flash。

OctalNAND Flash搭配8 I/O介面,每秒最快可達240MB/s的超高速。(來源:Winbond

在此百家爭鳴的AI時代,各家正如火如荼地推動AI晶片或演算法,爭相搶奪市佔率,華邦的記憶體在此扮演著什麼樣的角色呢?誠如黃仲宇在演說中所提,這就像是一場籃球競賽,晶片商是球場的前鋒,靠著不斷開發出強大運算力的AI晶片與演算法衝鋒陷陣在前場打下市佔,而華邦扮演著稱職的控球後衛在後場提供各式理想的Flash解決方案,不僅協助客戶保護辛苦開發的程式碼,同時也為客戶製造更多在市場上得分的機會。

加入LINE@,最新消息一手掌握!

發表評論