每日最新頭條.有趣資訊

全球最可靠疫情圖每天點擊量超10億,由兩名中國留美博士生操盤

一張黑底、紅點,左右兩側列著各國確診、死亡和恢復病例的地圖,成為近來一些國際新聞的背景圖片。美國副總統彭斯去衛生部視察時,美國衛生部就用這張地圖監測全國病例,意大利總理、德國內閣開會時,身後電子看板也正在依靠這張地圖展示疫情實時情況。

這個數據地圖由美國約翰·霍普金斯大學系統科學與工程中心(CSSE)一年級博士生董恩盛等人發起並維護。最初,他只是想要通過追蹤數據來觀察一場疫情從生到死的整個過程,用這些數據作為他研究疾病的工具,如今,這個每日點擊量超過10億的網站,已經成為多國政府高層、公共衛生學者和主流媒體引用最多的疫情數據來源,更新和運營這個網站成了董恩盛的“主業”。

“無心插柳”的網紅數據項目

1月21日寒假過後,在一次博士生組會上,董恩盛的導師、系統科學與工程中心副教授勞倫·加德納和大家聊起新學期的計劃,聽說中國的新冠肺炎很嚴重,便問董要不要做個數據儀表板?

董恩盛的研究方向是疾病模型,也就是用數學模型和計算機代碼來解釋一些流行病學、公共健康方面的問題,對全球流行病的發展趨勢做基本的判斷和推測。當時他已經在搜集數據準備做這個事情了,兩人一拍即合,七八個小時後,第一版疫情可視化地圖就做好了,1月22日,這個網站便正式面世了。

去年5、6月份的時候,董恩盛與勞倫·加德納便在另一個流行病風險性分析項目中做了一個類似的數據可視化地圖,當時引來一些美國主流媒體的報導。所以,他說技術思路上是比較成熟的,很快就能調試上線;另一方面,由於他的中文優勢,去中國國家衛健委上面抓取數據即可,所以早期團隊在中國疫情上比全球其他一些數據來源更及時。

起初幾天,數據都靠他手動整理,每天最多能保持4~5次更新。2月1日之後,這種方式變得不可持續,於是項目轉為半自動化更新:中國的疫情數據來自丁香園的自動更新,而其他國家的數據依然需要人工審核。為了發現各國新增病例,他們的監測渠道包括世界衛生組織(WHO)、推特、新聞報導、地方衛生部門提供的數據等等。這一階段,另一個博士生杜鴻儒也加入到數據收集和圖表的製作中來。

到了3月初,這個數據小組將美國疫情信息具體到縣一級層面。“因為美國郡縣大概有3000多個,再加上世界上有200多個國家和地區,人工完成非常吃力。”董恩盛告訴《中國新聞周刊》,於是小組招募了一些志願者,把人員分了很多組,有的組負責國外,有的組負責美國國內不同地區,然後24小時不間斷地發布最新數據。

2月19日,董恩盛、杜鴻儒與勞倫·加德納發表在《柳葉刀》雜誌上的文章介紹了這項工作。文章對比了約翰·霍普金斯大學系統科學與工程中心、WHO和中國疾控中心的數據報告。結果發現,他們的病例數據與後二者報告一致,而且他們在捕獲新國家或地區中首次報告的COVID-19(新冠病毒)病例上更加及時。

董恩盛說,WHO分為不同區域,各區域會及時更新數據,但是等到匯總到總部正式發布時,通常是第二天了——當然,也有極個別意外,尤其是最初全依賴人工操作時。有一個周六的早晨澳大利亞報告了首例確診病例,但因為董恩盛當時在睡覺,就沒有及時更新。

這個過程中還有很多具體的困難。比如,2月中旬部分“鑽石公主號”郵輪旅客撤回到美國。由於患者具體位置不明,他們就選擇了將點標記在美國相對的地理中心——堪薩斯州。但有些美國人放大地圖,最後發現這個點落在他們小區上,以為自己小區竟然有病例,便層層上報,後來學校讓他們趕緊調整一下,於是標記點暫時放回了日本橫濱港。

如何統一好數據的定義也是個問題。雖然用戶看到的是“確診病例”“死亡人數”這些標簽,但團隊實際面對的卻是各國甚至同一國家對於這些概念不同的定義。比如,董恩盛說,一開始美國CDC統計的“確診病例”需要核酸檢測呈陽性加上CDC認定才算確診,但是他們採用“推定陽性病例”的估算,亦即確診數據是指由州或地方實驗室確認的病例,但未經CDC證實,因此數字要比CDC的大一些。

可靠的數據是研究和決策的基礎

在線科技出版物Digital Trends3月28日發表文章《最可靠的新冠疫情儀表板》,其中提到六種可視化疫情數據通報平台,約翰·霍普金斯的這套系統獲得最高評價。原因是該平台“可視化設計最好,導航明晰、閱讀方便,且是六個平台中更新最頻繁的。”

美國疾控中心(CDC)也是其中一個平台。不過,該網站標注:該頁面從周一中午至周五定期更新,顯示的數據為截至前一天下午4時的統計結果。另外還有文字提示:CDC與各州和地方的公共衛生部門報告的病例存在差異,各州通報的病例為最新數據。董恩盛說,疫情早期CDC的數據精度比較低,它只是報告每個州病例數量範圍。這樣的運作模式使得CDC的數據可視化不如約翰·霍普金斯大學的這個數據項目受歡迎。

在3月6日於華盛頓國會山舉行的一場簡介會上,勞倫·加德納介紹,這個儀表板受到關注有一段時間了,現在平均每天點擊量為10億,最高峰一天點擊達20億。其間有過幾次高峰,例如,當意大利疫情暴發時,許多意大利民眾湧入網站,意大利用戶數超過了美國。

由牛津大學創立的“用數據看世界”網站解釋,他們在監測全球各國新冠疫情數據時,最初參照3個數據源:世衛組織、歐洲疾病預防控制中心(ECDC)以及霍普金斯大學。目前他們已經放棄從世衛組織獲取數據,一方面是因為世衛在3月18日修改了每日統計截止時間,另一方面在於其數據庫曾出現過錯誤。

“誰在使用這個儀表板?據我所知,幾乎每個人都在使用。它幾乎在所有的社交媒體渠道上走紅,一直火到美國地方政府、州、聯邦政府、公共衛生機構。”勞倫·加德納說,這說明人們對於可靠的、值得信賴的、客觀的信息有巨大需求,所以她認為,非常重要的是看到這種(需求與滿足之間的)差距,並且支持這類數據可視化工具走向公眾。

約翰·霍普金斯大學是美國的一所研究性大學,也是全美最近連續33年來科研經費開支最高的大學,其公共衛生學院多年來排名全美第一。

美國對外關係委員會全球衛生高級研究員黃嚴忠說,美國信息渠道很豐富,既有官方的CDC和各州公共衛生部門數據,也有民間機構、高校和媒體的數據更新,這樣多元的數據渠道使得疫情更加透明。而約翰·霍普金斯大學的數據地圖便是其中一個出色的例子。

複旦大學公共衛生學院原院長、中華預防醫學會新冠肺炎防控專家組成員薑慶五告訴《中國新聞周刊》,在疫情中,任何數據都要公開、透明,保證真實性,否則流行病學家、數學家無法做出判斷,也就不能為決策提供可靠的指導。

霍普金斯團隊較高質量的數據成為諸多研究團隊進行學術研究的基礎,是科學界了解新冠疫情的重要信息來源。董恩盛說,每天他們都會在固定時間發布準確的數據,全世界的學者都可以看到,這方便學者們進行基於時間序列的疫情分析,“而時間序列分析在流行病學,尤其是對於疾病的預測方面有非常關鍵的作用。”

現在,該數據地圖的自動化程度越來越高了,而且學校也給予了很多技術和人力支持。接下來董恩盛希望配合他的導師,利用這些數據研究一下哪些地方比較容易受到新冠病毒的攻擊,疫情什麽時候會出現轉捩點等等。

獲得更多的PTT最新消息
按讚加入粉絲團