巨量資料(big data,或譯「大數據」)的崛起,可以說是因為Google的Sergy Brin與Larry Page開發了一種演算法,能在網路上找到比其他競爭對手搜尋引擎相關度更高的結果;Google的這一課持續在所有試圖於資料庫中尋求具競爭力見解的企業之間發酵,無論規模是大或小。

今日的物聯網(IoT)開啟了大量的資料來源,也擴展了巨量資料將顛覆商業、科技以及技術人員職業的承諾;在這一路上,巨量資料催生了新種類的處理器與系統架構,還有持續演進的演算法與編程技術。

企業情報暨商業資訊服務業者美商鄧白氏(Dun & Bradstreet)的資料科學長Anthony Scriffignano在一場最近由美國矽谷商業/科技論壇Churchill Club舉辦的活動中表示:「我們正被資料淹沒的概念是新常態。」

也在該場活動中發表演說的IBM首席資料長(chief data officer,CDO) Inderpal Bhandari則表示,巨量資料分析的目標是:「改變一家企業的主要業務流程,讓他們有更好的成果,並因此能更快做出更好的決策。」

美國科技圈最近幾個首次公開上市(IPO)的大案子也是搭上了巨量資料熱潮,包括商業軟體業者Cloudera與Hortonworks,兩家都是開放源碼之巨量資料分析架構Hadoop──相當於Google的核心演算法MapReduce──的推手之一。

在史丹佛大學(Stanford)的的資料科學計畫(Data Science Initiative)下,研究人員正在開發一般企業能夠掌控的巨量資料技術;該計畫執行總監Stephen Eglash表示:「機器學習令人印象深刻,但實在不容易運用,就算是最先進的公司可能也只有少數幾個人能充分發揮那些技術。」

但Eglash指出:「我可以想像有一天,那些工具就會像微軟(Microsoft)的Office那樣容易取得;」為了達成以上目標,史丹佛的研究人員著手開發一款名為Snorkel的工具,能將巨量資料集的歸類(labeling)與吸收(ingesting)程序自動化。

「要看到該工具成功運作還需要好一段時間;」Eglash表示:「我們希望領域專家(domain expert)能在不需要資訊科學專家的情況下使用那些技術。」

IEEE的巨量資料計畫採取的是另一種方案,讓大型資料集能透過其Dataport服務免費供研究應用;到目前為止,其資料庫內容已經包括了從紐約市(New York City)交通即時路況到人腦神經元運動等各種各樣的例子。

商用巨量資料研發專案的種類也是同樣五花八門;成立於1976年的老牌商用資料分析軟體業者SAS資料長Wayne Thompson表示:「我們正在與一家半導體業者合作,協助他們透過改善電腦視覺來降低晶圓廠製程的缺陷率。」

Thompson進一步指出:「另外一個我們的研發夥伴則正在利用深度學習來提升足球員的表現。我們也利用深度學習,透過足跡影像追蹤與分析來監控並計算瀕臨絕種野生動物的數量。」

較小型的公司也在市場闖出一些名號,例如Real-Time Innovations Inc. (RTI)雖然員工僅有150人,其創新的即時監控資料匯流排(databus)軟體號稱取得了超過1,000個設計案;該公司的節點追蹤(tracking nodes)採取訂閱/發佈(subscribe-and-publish)模式。

RTI軟體的第一個大客戶,是安裝在美國海軍驅逐艦U.S.S. Cole上的仲介軟體伺服器;該驅逐艦才剛經歷在中東遭炸彈攻擊事件。此外該軟體也應用於水力發電廠、醫療設備,以及風力發電場等設施。

最近RTI延攬已被甲骨文(Oracle)收購的昇陽電腦(Sun Microsystems)共同創辦人Scott McNealy,坐鎮協助公司擴展規模的顧問團;McNealy表示,RTI的業務是所謂「網路電腦」(the network is the computer)的下一個階段演進:「今日的網路也是電廠以及其他許多東西。」

業界對資料科學人才需求孔急

根據《哈佛商業評論》(Harvard Business Review)的調查,巨量資料崛起使得資料科學家成為科技領域最炙手可熱的職業之一。

對此史丹佛大學的Eglash表示:「目前資料科學人才需求量遠遠超過供給量,感覺幾乎地球上每家公司都發現自己坐擁價值連城的資料,都在試圖搞清楚該如何充分利用它們;」而他認為,這種趨勢並非一時熱潮,而是科技素養(technical literacy)邁入一個新階段。

Eglash指出:「就像是每個受過教育的人都應該能寫一段文章或是做算術,感覺我們正邁入一個只要是做為社會的一份子、感覺每個受過良好教育的人就該擁有基本資料科學素養的時代;這並不是說每個人都需要會寫程式,但確實需要成為資料分析推理的關鍵消費者。」

明智的企業將會了解他們可以將哪些工作外包,以及哪些專門技術是他們應該自家擁有的;Eglash表示,具備提出集中焦點問題的能力是關鍵:「而不只是說“讓我們來看看我們的資料裡有什麼”;例如他們應該要會問,若結合他們的製造資料以及公開的商品定價資料,能如何更有效管理供應鏈。」

SAS的Thompson建議年輕人認真思考投入資料科學領域的職業:「我認為我們將會看到更多機器人,特別是具備對話能力的,這能大幅減少無效、成本高昂的互動發生…並讓我們能享受更好、更豐富的生活。」

Eglash也同意以上看法:「我們恰逢幾種黃金時代,人工智慧(AI)與資料科學顯然也在其中,這是一個偉大的時刻,無論你有沒有興趣,都該去了解有關於統計學以及資料科學的相關知識。」

編譯:Judith Cheng

(參考原文: Big Data Makes Big Waves,by Rick Merritt)