每日最新頭條.有趣資訊

新式算法依據谷歌Twitter數據可提前三周預測新冠疫情爆發

騰訊科技訊 7月7日,據外媒報導,在當前新冠疫情在全球肆虐之時,判斷當地經濟何時收緊或放鬆已成為世界上最重要的猜謎遊戲,每位政策決策者都在依靠自己的直覺和相關基準。例如,當醫院容納能力達到70%時,這就是個危險信號,新冠病毒感染病例和死亡人數上升也是如此。

但是,正如佛羅裡達、加利福尼亞和德克薩斯等州州長最近幾天所了解到的那樣,這樣的基準導致了警報系統的表現相當差勁。一旦新冠病毒在人群中找到突破口,它就會在醫院、檢測診所和其他地方再次被發現之前,在衛生官員采取行動之前,迅速傳播和繁殖。現在,一個由多國科學家組成的團隊開發出了新的算法模型,可以在疫情發生前兩到三周預測疫情,幫助衛生官員及時采取有效的控制措施。

在最新發布的論文中,由哈佛大學研究員毛裡西奧·桑迪蘭納(Mauricio Santillana)和尼科爾·科根(Nicole Kogan)領導的團隊展示了這種算法,該算法能在病例數開始增加前14天或更長時間內顯示出危險跡象。該系統使用Twitter、谷歌搜索和智能手機移動數據等數據流進行實時監控。桑迪拉納博士是波士頓兒童醫院機器智能實驗室主任,也是哈佛大學兒科學和流行病學助理教授。

研究人員寫道,該算法就像“冷卻或加熱系統中的恆溫器,可以引導公共衛生機構采取間歇性收緊或放鬆等乾預措施”,以此保證更平穩、更安全的重新開放。桑迪蘭納博士稱:“在大多數傳染病建模中,你會根據預先的假設來預測不同的場景。我們在這裡所做的是觀察,而不是假設。不同之處在於,我們的方法會對行為的即時變化做出反應,而且我們可以將這些變化納入模型之中。”

桑迪蘭納等人的論文尚未接受同行評議,但外部專家表示,它證明了實時數據(比如社交媒體)在改進現有模型方面的價值不斷上升。

德克薩斯大學奧斯汀分校生物學家和統計學家勞倫·安克爾·邁耶斯(Lauren Ancel Meyers)說,該研究表明,“新一代的替代數據來源可能提供新冠疫情感染病例上升的早期信號,特別是如果確診病例數因尋求治療和獲得檢測結果的延誤而滯後的情況。”使用實時數據分析來衡量疾病進展的方法至少可以追溯到2008年,當時谷歌工程師們開始通過追蹤“感覺疲憊”、“關節疼痛”、“達菲劑量”等詞的搜索趨勢來估計流感患者的就診次數。

但眾所周知,谷歌流感趨勢算法表現不佳。例如,後來的評估發現,由於數據限制和媒體關注等外部因素的影響,它不斷高估了就診次數,這些因素可能會推高與實際疾病無關的搜索量。從那時起,研究人員對這種方法進行了多次調整,將谷歌搜索與其他類型的數據結合起來。卡內基梅隆大學、倫敦大學學院和德克薩斯大學等大學的團隊都有結合了某些實時數據分析的模型。

弗吉尼亞大學的計算機科學家馬德哈維·馬拉瑟(Madhav Marathe)說:“我們知道,只有單獨的數據流是沒用的。這篇新論文的貢獻在於,他擁有種類繁多的數據流。”

在這篇新論文中,除了谷歌之外,該團隊還分析了來自四個來源的實時數據:與疫情相關的Twitter帖子和帶有地理位置的標簽、醫生在名為UpToDate的醫生平台上的搜索、來自智能手機的匿名移動數據以及上傳到應用程序上的Kinsa智能溫度計讀數。研究人員將這些數據流與東北大學開發的複雜預測模型相結合,該模型基於人們在社區中的移動和互動方式而開發。

桑迪蘭納團隊通過觀察數據流中的趨勢與每個州3月和4月份病例數量和死亡人數之間的關係,測試了趨勢的預測價值。例如,在紐約,與疫情相關的Twitter帖子的急劇上升趨勢在3月中旬病例數量爆炸前一周多就開始了,而相關的谷歌搜索和Kinsa讀數在幾天前也開始飆升。該研究小組結合了所有數據源,實際上根據每個數據源與即將到來的病例增加相關性有多強來對每個數據源進行加權。研究人員發現,這種“協調”算法平均可提前21提案預測疫情爆發。

展望未來,該模型預測,如果不采取進一步措施,內布拉斯加州和新罕布什爾州的感染病例可能會在未來幾周內增加,儘管病例數量目前持平。桑迪蘭納博士說:“我認為,考慮到疫情在不斷變化,保守地說,我們可以至少提前一周或更長時間發出警告。”他的合著者包括來自馬裡蘭大學、史丹佛大學、薩爾茨堡大學以及東北大學的科學家。

桑迪蘭納博士補充說:“我們並不認為這些數據取代了傳統的監測,而是證實了這一點。這類信息可以讓決策者更早做出決定:‘我們不要再等一周了,現在就行動吧!’”

專家表示,儘管大數據分析有很大吸引力,但它無法比其他傳統模型更好地預測大眾行為的突然變化。沒有任何算法可以預測黑人男子喬治·弗洛伊德(George Floyd)在警察暴力執法過程中遇害後引發的全國性抗議活動。儘管抗議者采取了預防措施,但大規模集會可能已經播下了新的疫情爆發種子。

社交媒體和搜索引擎也會隨著時間的推移變得不那麽敏感。隨著人們對病原體越熟悉,他們就越不會用選定的關鍵詞進行搜索。像疾病控制預防中心這樣的公共衛生機構也會使用來自社交媒體和其他來源的實時數據,但它們並沒有將這樣的算法作為預測的核心。喬治敦大學生物學家什韋塔·班薩爾(Shwata Bansal)說:“這對我們來說是極其有價值的數據,但我不想談這方面的預測業務,因為可能造成的傷害相當嚴重。隨著時間的推移,我們需要看到這樣的模型得到驗證。”

大多數專家表示,考慮到新冠病毒疫情的持續性和反覆性,以及目前公共衛生基礎設施的不足,這種情況似乎很可能發生。這是一個迫切的需求,也不缺乏數據。桑迪蘭納博士說:“我們看到的是我們認為最好的可用數據流,我們現在渴望看到亞馬遜或Netflix的數據能給我們帶來什麽。”(騰訊科技審校/金鹿)

獲得更多的PTT最新消息
按讚加入粉絲團