以基於GPU 的分析平台詮釋大型資料集
SQream RDBMS分析平台利用GPU的運算能力,能夠達到每小時、每天或每年攝取、轉換和查詢非常大的資料集,使客戶能夠從中獲得複雜的見解...

SQream Technologies創建了一個關聯式資料庫管理系統(RDBMS),使用繪圖處理器(GPU)並以結構化查詢語言(SQL)的方式執行大資料分析。SQream由執行長Ami Gal和技術長兼研發副總裁Razi Shoshani於2010年創立,總部位於以色列特拉維夫(Tel Aviv, Israel)。該公司透過其無程式碼(no-code)擷取-轉換載入(ETL)和分析平台Panoply加入Google Cloud Partner Advantage計劃,成為其建構合作夥伴之一。
SQream的分析平台善加利用GPU的運算能力,能夠達到每小時、每天或每年攝取、轉換和查詢非常大的資料集。該平台使SQream的客戶能夠從其非常大規模的資料集中獲得複雜的見解。

SQream執行長兼共同創辦人Ami Gal
Gal告訴《EE Times》,「我們做的是讓組織能使用更少的伺服器來縮小本地資料中心的規模。使用我們的軟體,客戶可以使用內建幾個GPU的幾台機器,而不是用大量的機器來做相同的工作,取得相同的結果。」
據SQream表示,該分析平台可以攝取比傳統資料分析系統更多1,000倍的資料,速度提高10到50倍,成本僅為傳統資料分析系統的10%。此外,這是用10%的碳消耗完成的,因為如果使用其他基於傳統CPU (而非GPU)的強大技術來進行,則需要更多的運算節點且消耗更多的碳,才能執行相同的工作負載。
旗艦級SQL資料庫—SQreamDB
SQream的旗艦級產品是SQreamDB,這是一個SQL資料庫,讓客戶能對拍位元組(PB)級的資料(高達100PB)執行複雜分析,比競爭對手的解決方案更快速、更低成本地獲得具有時效性的業務洞察力。
如圖1所示,可以透過以下方式部署分析平台:
查詢引擎:此步驟在現有分析和存儲解決方案之上,,針對來自任何來源(內部或外部)和任何格式的資料進行分析。待分析的資料不需要重複。
資料準備:原始資料透過反規範化、預聚合、特徵產生、清洗和商業智慧(BI)過程進行轉換。之後,它就可以透過機器學習、BI和AI演算法進行處理。
資料倉庫:在此步驟中,資料在企業範圍內進行儲存和管理。決策者、業務分析師、資料工程師和資料科學家能夠分析這些資料,並從BI、SQL客戶端和其他分析應用中獲得有價值的見解。
SQream的分析平台基於三項主要部署:查詢引擎、資料準備和資料倉庫。
圖1:SQream的分析平台基於三項主要部署:查詢引擎、資料準備和資料倉庫。(來源:SQream Technologies)
由於其適度的硬體要求以及使用壓縮方式,SQream主要針對PB級分析市場,協助公司節省資金並減少碳排放。SQream藉由GreenBook指南統計資料進行了基準測試,發現對300TB資料執行標準分析可節省90%的碳排放量。
利用GPU提供的運算能力和平行性,該軟體使SQream能在資料中心使用更少的資源來查看和分析資料。
Gal說:「我們可以只使用兩台伺服器來完成相同的工作,而不必配置六個伺服器機架,這也讓客戶能節省雲端上的資源。」
據SQream指出,有不少的半導體製造公司在生產多種物聯網(IoT)感測器。一般來說,物聯網是一個創建大量資料的用例,因此會產生大量的大規模衍生分析。
另一個有助於創建海量資料集的因素是,在資料中心執行的許多資料分析都使用機器學習演算法:為了達到高度的準確性,這些演算法必須在大資料集上執行。為了在更大的資料集上執行演算法,您需要更多的儲存空間、更多的運算能力、更多的網路和更多的分析。
Gal說:「你提供給機器學習演算法的資料越多,它們就越準確,客戶也更滿意。我們看到製造、電信、銀行、保險、金融、醫療保健和物聯網公司如何創建需要大型資料中心的龐大資料集。我們可以在這些用例中提供幫助。”
在資料分析時,關鍵因素之一在於可擴展性。SQream始終致力於平台架構,以確保它始終可擴展以適應更大的資料集。這就必須在策略瓶頸、運算、處理器、網路、儲存和記憶體的未來設計上持續更新。
該公司也在研究的另一個方面是使整個產品成為一種服務。為了實現這一目標,SQream正與大型雲端供應商合作。
根據Gal的說法,客戶通常不會特別注意必須在幕後做什麼(例如所需的電腦、網路、儲存和記憶體),才能啟用工作負載。因此,我們可能處於一種造成大量能源消耗、冷卻消耗和碳消耗的情況。這是一個極其低效的過程。
Gal說:「藉由發表相同的軟體,但將其作為一項服務,客戶可以繼續保持不必擔心流程在幕後如何執行的心態,但我們將會在雲端平台的底層為其提高流程效率。」
每年有數百萬台電腦被添加到雲端平台。這種趨勢正呈指數級成長,業界廠商也會持續永無止境地進行分析。
Gal並總結道:「我認為,為了協助客戶解決架構和電腦問題,我們需要做的一件事就是確保為他們提供的架構高效、穩健、具成本效益且可擴展。」
編譯:Susan Hong
(參考原文:GPU-Based Analytics Platform Interprets Large Datasets,by Maurizio Di Paolo Emilio)
本文同步刊登於《電子工程專輯》雜誌2023年3月號




訂閱EETimes Taiwan電子報
加入我們官方帳號LINE@,最新消息一手掌握!