以基於GPU 的分析平台詮釋大型資料集

2023-03-17
作者 Maurizio Di Paolo Emilio,EE Times歐洲特派記者

SQream RDBMS分析平台利用GPU的運算能力,能夠達到每小時、每天或每年攝取、轉換和查詢非常大的資料集,使客戶能夠從中獲得複雜的見解...

SQream Technologies創建了一個關聯式資料庫管理系統(RDBMS),使用繪圖處理器(GPU)並以結構化查詢語言(SQL)的方式執行大資料分析。SQream由執行長Ami Gal和技術長兼研發副總裁Razi Shoshani於2010年創立,總部位於以色列特拉維夫(Tel Aviv, Israel)。該公司透過其無程式碼(no-code)擷取-轉換載入(ETL)和分析平台Panoply加入Google Cloud Partner Advantage計劃,成為其建構合作夥伴之一。

SQream的分析平台善加利用GPU的運算能力,能夠達到每小時、每天或每年攝取、轉換和查詢非常大的資料集。該平台使SQream的客戶能夠從其非常大規模的資料集中獲得複雜的見解。

Ami Gal, CEO and co-founder of SQream.

SQream執行長兼共同創辦人Ami Gal

Gal告訴《EE Times》,「我們做的是讓組織能使用更少的伺服器來縮小本地資料中心的規模。使用我們的軟體,客戶可以使用內建幾個GPU的幾台機器,而不是用大量的機器來做相同的工作,取得相同的結果。」

據SQream表示,該分析平台可以攝取比傳統資料分析系統更多1,000倍的資料,速度提高10到50倍,成本僅為傳統資料分析系統的10%。此外,這是用10%的碳消耗完成的,因為如果使用其他基於傳統CPU (而非GPU)的強大技術來進行,則需要更多的運算節點且消耗更多的碳,才能執行相同的工作負載。

旗艦級SQL資料庫—SQreamDB

SQream的旗艦級產品是SQreamDB,這是一個SQL資料庫,讓客戶能對拍位元組(PB)級的資料(高達100PB)執行複雜分析,比競爭對手的解決方案更快速、更低成本地獲得具有時效性的業務洞察力。

1所示,可以透過以下方式部署分析平台:

查詢引擎:此步驟在現有分析和存儲解決方案之上,,針對來自任何來源(內部或外部)和任何格式的資料進行分析。待分析的資料不需要重複。

資料準備:原始資料透過反規範化、預聚合、特徵產生、清洗和商業智慧(BI)過程進行轉換。之後,它就可以透過機器學習、BI和AI演算法進行處理。

資料倉庫:在此步驟中,資料在企業範圍內進行儲存和管理。決策者、業務分析師、資料工程師和資料科學家能夠分析這些資料,並從BI、SQL客戶端和其他分析應用中獲得有價值的見解。

SQream的分析平台基於三項主要部署:查詢引擎、資料準備和資料倉庫。

SQream’s analytics platform is based on three main deployments: query engine, data preparation and data warehouse.

圖1:SQream的分析平台基於三項主要部署:查詢引擎、資料準備和資料倉庫。(來源:SQream Technologies)

由於其適度的硬體要求以及使用壓縮方式,SQream主要針對PB級分析市場,協助公司節省資金並減少碳排放。SQream藉由GreenBook指南統計資料進行了基準測試,發現對300TB資料執行標準分析可節省90%的碳排放量。

利用GPU提供的運算能力和平行性,該軟體使SQream能在資料中心使用更少的資源來查看和分析資料。

Gal說:「我們可以只使用兩台伺服器來完成相同的工作,而不必配置六個伺服器機架,這也讓客戶能節省雲端上的資源。」

據SQream指出,有不少的半導體製造公司在生產多種物聯網(IoT)感測器。一般來說,物聯網是一個創建大量資料的用例,因此會產生大量的大規模衍生分析。

另一個有助於創建海量資料集的因素是,在資料中心執行的許多資料分析都使用機器學習演算法:為了達到高度的準確性,這些演算法必須在大資料集上執行。為了在更大的資料集上執行演算法,您需要更多的儲存空間、更多的運算能力、更多的網路和更多的分析。

Gal說:「你提供給機器學習演算法的資料越多,它們就越準確,客戶也更滿意。我們看到製造、電信、銀行、保險、金融、醫療保健和物聯網公司如何創建需要大型資料中心的龐大資料集。我們可以在這些用例中提供幫助。”

在資料分析時,關鍵因素之一在於可擴展性。SQream始終致力於平台架構,以確保它始終可擴展以適應更大的資料集。這就必須在策略瓶頸、運算、處理器、網路、儲存和記憶體的未來設計上持續更新。

該公司也在研究的另一個方面是使整個產品成為一種服務。為了實現這一目標,SQream正與大型雲端供應商合作。

根據Gal的說法,客戶通常不會特別注意必須在幕後做什麼(例如所需的電腦、網路、儲存和記憶體),才能啟用工作負載。因此,我們可能處於一種造成大量能源消耗、冷卻消耗和碳消耗的情況。這是一個極其低效的過程。

Gal說:「藉由發表相同的軟體,但將其作為一項服務,客戶可以繼續保持不必擔心流程在幕後如何執行的心態,但我們將會在雲端平台的底層為其提高流程效率。」

每年有數百萬台電腦被添加到雲端平台。這種趨勢正呈指數級成長,業界廠商也會持續永無止境地進行分析。

Gal並總結道:「我認為,為了協助客戶解決架構和電腦問題,我們需要做的一件事就是確保為他們提供的架構高效、穩健、具成本效益且可擴展。」

編譯:Susan Hong

(參考原文:GPU-Based Analytics Platform Interprets Large Datasets,by Maurizio Di Paolo Emilio)

本文同步刊登於《電子工程專輯》雜誌2023年3月號

活動簡介
TAIPEI AMPA & Autotronics Taipei X Tech Taipei 2023「智慧領航車聯網技術論壇」邀請來自產業的代表業者與專家齊聚一堂,透過專題演講、現場應用展示以及互動論壇,深人交流智慧交通與車聯網的融合應用,基礎設施以及安全測試與標準化等主題,帶來一系列迎接車聯網時代必須掌握的最新技術與市場趨勢,協助工程師進一步探索充滿無限可能的智慧移動大未來。
贊助廠商

發表評論

訂閱EETT電子報