新型冠狀病毒肺炎(COVID-19)源於一種與嚴重急性呼吸道症候群(SARS)和普通感冒有關的冠狀病毒。結合大數據(big data)和預測分析,以及人工智慧(AI)和各種熱感測器,可望有效控制這種傳染病的疫情擴散,從而使其致死病例數降至最低。

由於目前對於這種病毒的檢測能量有限,經常無法確定究竟有多少受到感染的病例數,使得這種病毒的真正危險性仍令人存疑。資料分析技術對於支持流行病學專家具有決定性的貢獻。

資料分析就和數學一樣,扮演著基本的作用。如同過去幾年一樣,資料科學先驅對於世界的影響深遠,在疾病擴散之際,利用資料和分析推動重大改變與進展。從歷史發展軌跡來看,資料分析的最早應用之一是在1854年倫敦寬街霍亂爆發(1854 Broad Street cholera outbreak)事件。第一批資料導向的流行病學家之一約翰·斯諾(John Snow)對於倫敦的致死案進行地理空間分析,從而隔離了疾病的來源。根據John Snow的分析,英國當局才能精準地採取防疫措施,迅速掌握傳染病的擴散。

如何評估資料?

透過資料分析系統執行各種模型,已經證實能夠大致上評估趨勢的發展。例如最常見的「易感-感染-康復」(Susceptible-Infective-Recovered;SIR)模型,這種流行病學模型用於計算「在一個存在具傳染力病例的密閉空間中,被感染病例隨著時間逐漸增加的理論數」。該模型使用耦合方程式分析易感染人數S(t)、被感染人數I(t)以及康復人數R(t)。最簡單的SIR模型之一是Kermack-McKendrick模型,這種流行病模型也被認為是許多其他同類分析模型的基礎,其中,我發現Ettore Mariotti的分析最有意思。

首先要有一個島嶼,即人們無法自由進出的系統。在某個特定時間下,每個人可能存在以下某種狀態之一:「易感染」、「被感染」和「康復」,因為從未患此病的人(S)很可能發病並在某個時間被感染(I),然後康復(R)。以CoVID-19而言,更適於為此SIR模型中增加一項「已暴露」(Exposed)狀態,這包括了帶有病毒但尚未感染確診者(無症狀帶原者)——SEIR模型。

SEIR model

圖1:SEIR模型
(來源:triplebyte.com)

該SEIR模型考慮了兩項因素:病毒的動態以及個體之間的互動。後者極其複雜,因而需要採用資料分析技術。透過這些模型與技術,讓我們可以定義R0參數,用於表示被每一位感染者可能傳染的人數。

例如,假設某個人A發病了,而系統中的R0 = 2,這表示A將會傳染給2個人。這2個人分別傳染給4個人,而這4個人將會分別再傳染給2個人(因此4 x 2 = 8),依此類推。這突顯了疾病是以乘法而非累加方式快速擴散。R0可以發生如圖2所示的3種基本情況。

Ro Basic scenarios

圖2: R0基本情況
(來源:Triplebyte.com)

關閉學校、體育館等,減少了人們的社交互動,因而降低了R0。醫療系統是有限的,因此,將此參數降低到低於1極其重要。如果R0 > 1,那麼疾病就會傳播開來;唯有當R0 < 1時,才能讓疾病消失。因此,為了減少R0,我們可以合理地期望政府採取更嚴格的政策來限制人們的行動性。

值得注意的是,R0衡量的是疾病的潛在傳播途徑,而非疾病傳播的速度。以流感病毒的普遍性來看,其R0僅為1.3。R0值過高是引發群眾擔憂的原因,而不是引起恐慌的原因。

R0是平均值,因此可能受到超級傳播者事件等因素影響。超級傳播者是指一個被感染者傳染給很多人。在SARS和MERS流行期間以及目前的Covid-19大流行期間,發生了多起與超級傳播者有關的事件。這一類事件並不一定是壞兆頭,因為它們可能顯示持續讓疫情流行的人數減少了。而且超級傳播者可能也更易於掌握和遏止,因為他們的症狀可能相當嚴重。

簡言之,R0是持續變動中的參數。追蹤每一個確診案例以及疾病的傳播極其困難,因此,R0的估算既複雜又具挑戰性。其估算值經常隨著新資料出現而改變。

那麼,哪些技術解決方案能夠減緩或終止Covid-19的傳播並有效控制R0?當然,利用最新的AI技術結合手機GPS移動的資料,可以建立分析模型,用於預測哪些社區更有可能發生未來感染狀況或哪些社區需要緊急採取消毒等行動。

大數據、AI與感測器

以傳染病而言,臨床資料在質和一致性方面的變動可能較大,甚至包括出現假陽性患者。大數據和AI可用於檢查是否達到隔離要求,而機器學習則可用於藥物研究。這些都是新數位技術為緩解冠狀病毒緊急情況而發展出來的解決方案,像是許多亞洲國家,還採用數位技術成功實施各種防疫措施。

配備智慧掃描儀和相機系統的無人機可用於檢測那些不遵守隔離措施的民眾,還可以量測人們的體溫。例如中國大陸和台灣使用智慧相機攔截未戴口罩者,同時執行即時熱感應以偵測是否有發燒的情況。

例如,中國AI公司SenseTime開發了一款即使戴著口罩也能掃描人臉的平台,而阿里巴巴(Alibaba)則開發了基於AI的新型冠狀病毒診斷系統。SenseTime的非接觸式溫度檢測軟體已經實施於北京、上海和深圳的地鐵站、學校和公共中心。同時,阿里巴巴開發基於AI的Covid-19診斷系統透過電腦斷層掃描(即CT掃描)檢測是否感染新型冠狀病毒,據稱準確率高達96%。

virus evolution, graph.ai

圖3:病毒的進化
(來源:graphen.ai)

Graphen與美國哥倫比亞大學(Columbia University)合作,嘗試定義每個病毒基因定序的典型形式,並找出其變體。它採用模擬人腦功能的Ardi AI平台,儲存這些變異的資料並使以視覺化呈現。在圖3中,每個紅點代表一個病毒,綠點則代表一組具有相同的基因組序的病毒。點選紅點還可查看病毒的資訊,包括位置、性別與年齡等。

大數據是控制疫情的另一種有效工具。在緊急期間,它已被廣泛用於改善監控系統,以繪製病毒傳播圖。

大數據的擷取和處理,需要設計用於收集和分析的新方法和新技術。例如以下四種大數據分析類型或方法:

  • 描述性分析:發生了什麼?描述業務流程或計劃的現在與過去情況,以綜合和視圖方式呈現活動的績效指標;
  • 預測性分析:將發生什麼?即使用回歸分析和預測模型等數學技術,協助了解未來可能發生事件的資料分析工具;
  • 規範性分析:需要做什麼?用於確定有效的策略和營運解決方案;
  • 自動化分析:根據執行分析的結果自動執行所需的操作與行動的工具。

阿里巴巴還開發了Alipay Health Code行應用程式(App),利用中國醫療保健系統提供的大數據,指示誰可以或被限制進出公共空間。

多倫多新創公司BlueDot採用AI建構的平台,開發可自動監控傳染病擴散與預測的智慧系統。在SARS傳播期間,BlueDot平台已經取得了具體成效。2019年12月,BlueDot就曾經針對這種冠狀病毒症狀的嚴重性提出警告,如今也證實了其準確性。在BlueDot使用的工具中,還有一些採用自然語言處理(NLP)技術,可用於處理人們的語言及其表達方式。

美國生物科技公司Insilico Medicine同樣致力於以AI預防疾病。該公司正開發下一代AI和深度學習途徑,並將其應用於藥物探索與開發過程中的每一步驟。Insilico Medicine目前開發的新技術,未來將可用於建議醫師如何對抗冠狀病毒分子的資訊。在最近的分子分析後,Insilico Medicine的系統能夠針對如何有效對抗冠狀病毒提供反饋資訊。該新創公司現正開發可為疫苗開發專案提供相關資訊的資料庫。

WeBank研究人員則採用衛星分析技術,確認煉鋼廠中的熱點所在,為產業的復甦提供了重要資訊。

在疫情流行初期,這項分析顯示鋼鐵產量降低至29%的最低產能水位。到了2月9日則恢復到76%。研究人員緊接著關注使用AI的其他生產類型和商業活動,其中之一是用於簡單地計算大型公司停車場中的汽車數量。該分析顯示,截至2月10日,在上海的特斯拉(Tesla)汽車生產已經完全恢復,而上海迪士尼樂園(Shanghai Disneyland)等旅遊景點仍在關閉中。

satellite image

圖4:比較2019年12月30日(左)和2020年1月29日的並排衛星影像顯示,中國的鋼鐵產業活動仍處於低水位
(來源:spectrum.ieee.org)

透過分析GPS衛星資料,還可以確定哪些人正在通勤中。軟體可用於計算每座城市中的通勤人數,並比較2019年與2020年同一日期的通勤人數。無論是2019還是2020年,在中國農曆新年期間的通勤人數都大幅減少,但相較於2019年,2020年假期後上班人數並未恢復。隨著疫情狀況逐步受到控制,WeBank研究人員還計算出,截至今年3月10日,中國約有75%的員工已經返回工作崗位。根據這些曲線預測,研究人員的結論是,除了武漢之外,大多數的中國工人將在3月底恢復正常工作。此外,研究人員並預期今年第一季的經濟成長將達到36%。

如今,全球各地的科學家和研究人員也在設法克服COVID-19的挑戰,各種新技術正成為其有利的後盾。成功通過此次緊急狀況考驗的技術與解決方案,可望成為日後的產業標準。

編譯:Susan Hong

(參考原文:Big Data and Artificial Intelligent Can Save the Earth From Covid-19,by Maurizio Di Paolo Emilio)