Facebook和Netflix都在用的實時機器學習什麽樣？

圖片來源：視覺中國

文｜腦極體

最近，Facebook宣布開發出了一種新的算法Spiral，可以為網站上的數十億用戶提供實時調節的服務。能夠在短短幾分鐘內預測並將新結果輸出給用戶，而不是依靠好幾周的數據來優化和更新服務。

舉個例子，如果一個用戶突發奇想，想要知道“我的哪些朋友讚過此貼”，傳統算法的解決方案是，創建一個龐大而持續的長時間記錄，精心觀察和記錄每個相關用戶行為對結果的影響。

但Spiral只需要幾分鐘就能收集反饋，自動學習並立即獲得精準推斷。

聽起來是不是很神奇？

最近，這種能夠隨數據獲取實時調整模型的實時機器學習，正在成為媒體技術領域的新“網紅”。曾經連續兩年，都被FTI評為傳媒業的重要技術趨勢之一，與自然語言理解NLU、機器閱讀理解MRC、音影片算法等共享金字塔頂端的榮光。

實時機器學習技術的深入應用，將解鎖很多超乎想象的媒體功能和應用場景。但是，儘管學界已經在算法上提出了幾種理想的架構，但產業端卻未迎來蓬勃的質變。這究竟是為什麽？

什麽是實時機器學習

在開啟扒皮模式之前，我們先來了解一下，實時機器學習究竟在哪些地方比傳統的機器學習更強？

傳統的機器學習（ML）正在媒體領域得到越來越多的應用，利用算法實現內容的“個性化推薦”，已經成為主流媒體的標配。

但過去的算法，主要側重於使用靜態模型和歷史數據進行訓練並提供預測。比如用戶在瀏覽網站時，可以根據用戶歷史行為數據來推送新聞。

而一些新的涉及動態實施決策的業務，比如具備時效性的熱點新聞，或是用戶想要看點新東西，這就需要用一種新的算法來實現，即實時機器學習Real-Time Machine Learning。

以頭條的核心技術“個性化推薦算法”為例，其核心原理就是根據用戶對文章的歷史行為數據反饋，進行統計挖掘和判斷。

比如具有相同偏好的三個用戶，分別選擇了自己喜歡的文章，得到最高票數的文章就會被推薦給被系統打上同一屬性標簽的第四個人……以此類推。

不難發現，傳統機器學習算法的成功，依賴於對用戶的“知根知底”，需要用戶不斷開放自己的私人領地。

而實時機器學習，更擅長對用戶的當下需求體察入微，讓用戶在保持隱私安全感的同時，獲得如沐春風的瀏覽體驗。

顯然，實時機器學習算法將主導一個令人期待的新世界，也有越來越多的媒體在為此做著準備。

帶來的新挑戰

實時機器學習雖然很美好，但要讓機器在數據獲取過程中實時調整模型，也帶來了不同維度的技術挑戰，讓工程師們為之禿頭：

1. 高吞吐量與低延遲的平衡。

媒體平台的海量用戶需求，決定了實時機器學習要在每秒處理數百萬任務量級。以這樣的速度進行大規模的資訊分發，需要細致到毫秒級的任務執行能力。

2. 動態異構任務模塊的高效喚醒。

對於Facebook這樣體量龐大的平台來說，其服務是由成千上萬個不同模塊構建而成的，流量調節、影像轉碼、存儲編碼等等。在實時任務中，會伴隨生成很多不同資源支持的新任務，增加系統的響應和處理難度。

如何對這些重要且不一樣的特性進行預測，十分具有挑戰性。

3. 實時算法與業務場景的融合。

實時響應和預測，意味著留給系統的容錯太空更小。要保障這一技術在實際應用場景中的穩定性，就要在完成高吞吐量任務的同時，能夠快速模擬真實世界的互動，然後精準地判斷出，哪些是結果的決定性因素，從而做出正確的響應。

舉個例子，如果想給用戶推薦“哪些朋友讚過此貼”，實時算法會快速判斷出“最近一次查看”這一數據集對完成該任務毫無意義，然後快速修改關聯並重新學習。這種自適應調整，可以有效防止用戶收到的結果中出現明顯的錯誤點。

以上這些問題，似乎說明媒體們挑戰實時機器學習的難度還是蠻大的。那麽，有必要做這麽吃力不討好的事嗎？

進擊的媒體：實時機器學習的N種可能

儘管在剛剛問世時，基於靜態模型的機器學習算法，展現出了很高的分發效率優勢，目前看來，也仍舊能夠滿足大部分用戶的需求。但在某些場景下，還是會有鞭長莫及的地方：

首先，是高品質流媒體體驗帶來的技術要求。目前主流內容平台都在向音影片業務推進，面對多元化內容和行為數據的及時分發，高延遲的解決方案就變得不太理想了。

另外，傳統的機器學習算法，往往會為用戶打上各種各樣的偏好標簽，難以對即時或潛在的資訊需求及時洞察與響應。這就會使用戶在“貼心”之餘幸福地進入資訊繭房，習慣性地被既有興趣所引導，失去了探索未知的動力和可能性。

更為重要的是，靜態模型對歷史數據的規模化處理，只是一種理想狀態的假設。由於技術能力和隱私授權等重重限制，實現“全樣本”的數據分析幾乎不可能，結果就是其統計結果往往“以偏概全”。

因此，作為一種更加高效的解決方案，實時機器學習自然成為了接下來媒體平台提升用戶體驗的主戰場。

其中，又分為了三個主要議題：

1. 常規資訊流與突發新聞實時推送的相互補充。目前，常規資訊流依然在主流媒體的內容呈現中佔據主要位置。而借由實時機器學習，可以將用戶偏好與突發的熱點事件相結合，方便讀者及時了解其他事件；

2. 對歷史緩存機制的合理規避。為了應對用戶的查詢和需求，傳統的機器學習系統需要進行大量的數據庫更新。實際上，只有很小一部分數據才是真正影響輸出結果的，這無疑增加了很多不必要的工作量。通過更高效的算法來降低資源存儲和管理成本，自然吸引了媒體們用腳投票；

3. 主動挑戰意外和偏見。媒體的本質是建立一個匯集各種不同觀點的公共平台，而個性化算法總會讓人們停留在認知的舒適區。未來的新聞服務，如果想要挑戰讀者的偏見，又不願激怒用戶，就需要運用實時算法來小心試探。未來，商業服務與新聞意志之間的矛盾，可能會被新的算法所消融，這種結果無疑會讓媒體的生存環境變得更好。

總體來說，實時機器學習雖然還是個新生事物，已經吸引了眾多媒體巨頭們為它消得人憔悴，不僅因為它比此前的算法有著更低的成本與更好的療效，更因為它代表了一種媒體與AI融合更光明的前景：讓技術的革新為人類創造更多的可能性，而不是相反。