每日最新頭條.有趣資訊

全球疫情數據,為何由一所高校更新?

1月21日,導師建議我做一個新冠的數據展示圖(dashboard),類似船員航行時需要關注的儀表盤。我們所有的數據庫都是開源的,大家可以在Github查到所有的歷史數據,相當於我們的數據在接受全世界的審核。

世衛的數據是一天更新一次,不像我們實時更新,因此我們的總數會比它那天那個時刻公布的要大。我們做過一個世衛和我們數字的對比,發現世衛的數字總是在第二天才追上我們前一天發布的數字。

通過這次疫情,我感受到及時公布數據的重要性,儘管不斷攀升的數字看起來很恐怖,但是可能會起到讓你待在家裡不要出門的作用,這對阻斷傳染病傳播是最有效的辦法。

這是4月4日在美國紐約中央公園拍攝的臨時醫院。(新華社/路透/圖)

每一日,你的手機都會彈出全球新冠疫情的最新統計數據,這其中一個信源是美國約翰·霍普金斯大學(Johns Hopkins University,簡稱JHU)。

JHU疫情數據已被多家媒體引用和報導,包括紐約時報、CNN、法新社、BBC以及新華社等。

疫情可視化數據圖由JHU土木與系統工程學院(CaSE)的Lauren Gardner教授和她的學生開發,目前研究團隊核心成員有三人,24小時不間斷實時更新。

JHU是一座百年名校,主校區坐落於美國大西洋沿岸馬裡蘭州巴爾的摩市,距離美國首都華盛頓六十多公里。JHU醫學院和公共衛生學院均在全美名列前茅,而醫學院的教學研究部門約翰·霍普金斯醫院連續21年被評為全美最佳醫院。

JHU“新冠病毒研究中心”官網顯示,該疫情數據在1月22日上線,每日平均使用量(feature requests)從1月底的2億次,在3月初上升到每日12億次,高峰時每日近20億次。

約翰·霍普金斯大學疫情數據4月4日截圖

為何一個高校開發的數據圖受到全球關注和信賴?

台灣時間2020年4月3日,JHU數據圖顯示,全球新冠肺炎感染人數突破100萬,南方周末記者當天專訪了JHU土木與系統工程學院的董恩盛和杜鴻儒,解讀上億閱讀量背後的故事。他們是Lauren Gardner教授指導的博士一年級學生,從早期開始就深度參與了JHU疫情地圖的數據收集與分析工作。

杜鴻儒(左)和董恩盛(右)(受訪者供圖/圖)

1月22日上線,手動錄入到自動更新

南方周末:世界衛生組織和美國疾控中心每天也在更新全球和美國的新冠確診數據,大家為什麽會信賴並使用你們的數據?你們的數據來源是哪些?

董恩盛:我們是從各個國家的官方網站收集數據,比如中國的數據主要來源於國家衛健委和“丁香園”。“丁香園”將每個省份的疫情情況都製成了表格,這樣便於科研工作者錄入和處理。

美國的數據不像中國是自下而上、層層上報和發布,我們會結合州郡縣市的官方網站、政府新聞發布會、權威部門或媒體發表在Twitter等渠道的疫情內容進行數據挖掘。

世界衛生組織和美國疾控中心的數據,雖然也被我們列作數據來源,但它們對於我們來說主要是核查(validation)作用,因為它們的數據更新相對滯後,也沒有像我們一樣達到郡縣級的數據精度。

所以,我們通常是今天收集好數據並發布,等第二天世衛和疾控的數據出來再比對,目前來看,我們發現我們報得很及時,也很準確。

另外,我們所有的數據庫都是開源的,大家可以在Github查到所有的歷史數據,相當於我們的數據在接受全世界的審核。除此之外,我們還有公開的郵箱接受大家的建議和意見。

南方周末:我們發現你們公布的全球確診人數總是比世界衛生組織多,這是為什麽?比如說到4月3日,世衛組織的全球確診人數還沒有超過百萬,但你們的數據顯示已經超過百萬了。

杜鴻儒:世衛的數據是一天更新一次,不像我們實時更新,因此我們的總數會比它那天那個時刻公布的要大。我們做過一個世衛和我們數字的對比,發現世衛的數字總是在第二天才追上我們前一天發布的數字。這也說明了我們數據很準確,而且比他們更新得更快。

董恩盛:此外,在我們的定義中,確診人數(confirmed cases)其實還包括了推定陽性病例(presumptive positive cases),原因是各地對推定陽性病例和疑似病例(suspected cases)等群體定義不同,很難統一。以美國為例,推定陽性病例意味著他們已被地方實驗室確認感染新冠病毒,但還未經疾控中心核實納入統計,所以我們還是把推定陽性病例納入到確診數字中。

4月4日世界衛生組織發布的疫情數據,確診人數也超過百萬。(世界衛生組織官網截圖/圖)

南方周末:台灣時間1月23日,武漢交通“封城”,當天你們的數據圖就上線了,當時為什麽有這個想法?

董恩盛:1月20日是美國的馬丁·路德·金紀念日,放了三天的小長假。到了1月21日我們課題組開會的時候,導師Lauren Gardner教授問我知不知道現在中國新冠疫情已經非常嚴重了,我說“是的,我非常擔心,也想做些相關的研究”。

當時導師建議我做一個新冠的數據展示圖(dashboard),類似船員航行時需要關注的儀表盤。這方面的技術我比較熟悉,因為2019年五六月份,我跟著導師已經做過一個關於美國麻疹的數據展示圖。

1月21日開始準備,教授主外我主內。教授負責聯絡和協調資源,並對我的工作進行宏觀性的指導,我花了六七個小時把初代的數據圖做了出來,第二天1月22日(美東時間)上線,正好在武漢交通“封城”後發布,那個時候國家衛健委也已經通報了全國的新冠疫情情況。

南方周末:當時只有你一個人在做數據更新?忙得過來嗎?

董恩盛:到1月底基本上就是我一個人純手動更新數據,很花時間。我那個時候基本是不睡覺的狀態,每天要更新四五次,我還退了一門課來確保數據及時更新。

後來被感染國家數量越來越多,數據精細度要求越來越高,我一個人就漸漸吃不消了。一開始只是想做一個研究的輔助性的工具,沒想到現在會得到這麽高的曝光量。

南方周末:地圖現在包括了181個國家和地區的數據,涉及不同的語言,搜集數據的過程中遇到了什麽困難?

杜鴻儒:我是在1月30日左右加入,和董恩盛一起做數據更新。我們去各個國家的衛生部門和權威媒體網站一個個找,小語種國家的網頁直接用Google Translate整個翻譯成英文,然後將確診病例的數據轉到Excel/csv裡,最後再導在軟體裡進行數據可視化。

對於我們來說,比較麻煩的是有的地區比如某個島隸屬於英國、法國或荷蘭等,個別數據源容易錯把它們當作單獨的國家來看待。

南方周末:數據庫已經上線兩個多月了,這期間出過錯誤嗎?

杜鴻儒:早期手動錄入的時候,免不了會出現一點小錯誤,但我們的郵箱會立馬收到讀者的郵件,質問我們“你為什麽錯了”。

後來我們覺得手動錄入實在不是長久之計,組裡的成員熬了一周,每天至少工作15個小時,完成自動化信息收集、數據清理、更新圖表的編程工作。所以,到了3月中旬,我們的更新頻率基本可以做到每15分鐘自動爬取一遍所有的數據,每一個小時自動更新一次數據圖。

學校放假,數據不能“斷更”

南方周末:目前在做類似工作的還有哪些機構,為什麽你們的關注度最廣?

杜鴻儒:其實我感覺我們做的數據圖也不能說很厲害,只是我們佔了兩個優勢:第一是我們做得比別人早;第二是借助JHU在公共衛生和醫學領域排名靠前的優勢。所以JHU發布的數據,大家都會覺得很權威的,容易取得更多的關注。

世界上第三方獨立做疫情數據收集和分析的研究機構不多,我關注到的有哈佛大學。

哈佛大學的新冠疫情動態數據 4月4日截圖

每個研究機構都各有所長,比如說哈佛大學的數據圖是和清華大學等機構合作,我覺得他們的優點在於,將確診數量做成不同深淺的顏色來表示嚴重程度,而且他們掌握了許多細節的數據去分析患者的年齡、入境時間等。不足是他們上線較晚、更新速度較慢。

南方周末:上線兩個多月來,你們的數據展示圖和最開始相比,有哪些變化?

董恩盛:有很大差別。以最直觀的疫情地圖為例,大家一開始最關心中國疫情,所以初代數據展示圖是以中國為中心。你想看世界其他地方,需要手動點擊。現在打開頁面,可以直接看到整個世界的情況,不需要放大或者縮小地圖。

從整個頁面布局來說,初代數據圖只是列出了確診病例的累計總數,然後把每個國家或省份的數據單列出來。我們現在又增加了很多圖表,比如說你點擊一個國家,可以看到這個國家確診數字的每日變化。

從數據精細度來說,初代隻對中美加澳四國是到省(州)級的,其他都是以國家或地區為部門。後來,對美國的確診、檢測數據我們做到了郡縣級(county level),當時很多人給我們寫郵件,感謝我們讓他們看到了自己生活區域的疫情。當然,這裡面也有專家給我們提了一些寶貴的建議,使我們的數據展示更加便捷準確。

南方周末:除了感謝信,你們還收到了什麽樣的反饋?

杜鴻儒:我們的公共郵箱大概每天能收到一兩千封關於數據圖的郵件,我的個人郵箱也會收到二三十封相關郵件。我們沒有精力逐一回復,現在中心已經請了專門的人來回復這些郵件。

據我所知,美國很多州的疾控中心直接採用了我們的數據,包括馬裡蘭州、佛羅裡達州、俄勒岡州等,各級政要包括美國副總統邁克·彭斯談到新冠疫情的時候也引用了我們的數據圖。

南方周末:你們學校是不是也放假了,數據會停更嗎?會不會覺得壓力很大?

董恩盛:現在美國的學校基本都網上授課,我們的校園裡面也只見花不見人了。但是我們這個項目很特殊,數據不能“斷更”,一旦更新出現問題,會影響到全世界。

所以學校也很重視,同時也有第三方獨立的GIS地圖軟體公司給予我們數據可視化的技術指導。

同時,學校還專門建立了新冠研究中心(Coronavirus Resource Center)網站,把學校所有和新冠相關的內容,包括我們的數據圖、疫苗、預防等內容都集結在裡面,供公眾瀏覽。

“感受到及時公布數據的重要性”

南方周末:除了數據收集、更新、可視化展示,你們是否會對這些數據加以分析,並對全球疫情的趨勢作出判斷?

董恩盛:其實這項工作之初,我們就是打算在收集數據的基礎上,建立流行病學模型去分析新冠疫情的未來發展趨勢。

比如說,我們一開始採用SEIR模型(記者注:構建帶有潛伏期的傳染病模型)去分析,但是我們遇到了兩個現實問題:一是這個數據采集量太大了,以至於我們的工作重心不得不從建模分析轉向了數據收集;二是,對於模型來講,人口流動(mobility)的數據非常重要,因為疾病的傳播和人口的流動indivisible,然而許多國家出於保護隱私等原因,這方面的數據是難以獲取的。

舉例來說,如果我們想要證明中國採用“封城”的辦法有效延緩了新冠病毒傳播,我們起碼需要高鐵、航空等方面的一些人員流動數據。

因此,我們當時的工作更加側重於分析,如果中國是個疫情中心,將對世界上其他國家造成什麽樣的影響。比如說,預估哪些國家有可能更加早出現輸入型的病例,美國某些州或者機場需要採用一些檢測和隔離的手段。

但是,當時初步形成的一些研究結果發表在我們的網站上,並沒有一對一地對受影響的地區提出建議。後期很多地方衛生部門主動聯繫我們,才慢慢建立起直接的溝通合作。

南方周末:你們的數據對流行病學家的研究有什麽幫助?

董恩盛:我們提供的這些原始數據非常寶貴,許多政府和媒體機構都在關注。這些數據也是開放的,科學家在這些數據的基礎上做相應的分析,我們後續也會跟進的。

杜鴻儒:流行病學分成很多個板塊,有的科學家關心病毒基因構成,追溯其來源,這些我不太了解,我們現在做的建模工作偏向統計分析,關心確診數量、檢測數量、死亡率、擴散速度等等。

我也看到中國國內很多科學家在做類似的分析工作,發了很多期刊文章,我覺得這些分析越早發出來越好,它可以幫助決策者更清晰地看到疫情的嚴重程度,提供一些可行的方案建議。

通過這次疫情,我感受到及時公布數據的重要性,儘管不斷攀升的數字看起來很恐怖,但是可能會起到讓你待在家裡不要出門的作用,這對阻斷傳染病傳播是最有效的辦法。

除此之外,確保這些數據的準確、盡快對疫情走勢作出判斷也非常重要。現在美國的疫情已經很嚴重了(記者注:截至發稿時間,JHU數據圖顯示美國確診數量已是全球第一,超過27萬),我們會根據我們的數據和模型來判斷,美國政府實行的這些social distancing等隔離政策是否有效,疫情轉捩點會在哪個時刻到來。

南方周末記者 黃思卓

獲得更多的PTT最新消息
按讚加入粉絲團