每日最新頭條.有趣資訊

算法猛如虎?最通俗語言為你拆解算法分發全過程

閆澤華 知乎知識市場產品總監

當音樂應用變得越來越懂你,當新聞客戶端逐一裝配了推薦引擎,當各色巨頭紛紛入場短影片算法分發:圖文、音頻、影片,種種資訊載體正借由算法的力量提速分發效率。

願意或不願意,你我已經事實上被時代的浪潮所挾裹,走進了內容的算法分發時代。

對於算法分發很多人會有所誤解,這或許源自我們的遠觀,缺乏了解才會覺得算法猛如虎。而當走近了算法分發,有了一定的了解之後,或許會有重新的認知:縱然算法如虎,也可細嗅薔薇。

?

斷物識人,推薦起點

儘管算法分發中應用了各種高深的模型或公式,但其基礎原理是樸素的:更好地了解待推薦的內容,更好地了解要推薦給的人,才能更高效的完成內容與人之間的對接。

從這個角度來看:斷物識人,是一切推薦行為的起點。

何以斷物,何以識人?用打標簽的形式最容易理解。

標簽是對高維事物的降維理解,借由單個短語抽象出了事物更具有表意性、更為顯著的特點。在不同的業務消費場景下,我們會選擇不同的標簽集合來對內容和用戶進行標注。

比如,對於職場社交應用,職業背景、工作經歷會是用戶重要的標簽;而對於興趣社交應用,興趣偏好類的標簽則具有更高的權重。

在內容畫像層面,有兩種典型的標簽產出方式,以音樂為例:

專家系統:潘多拉(Pandora)的音樂基因工程(Music Genome Project)。在這項工程中,歌曲體系被抽離出450個標簽,細化到如主唱性別、電吉他失真程度、背景和聲類型等等。

每一首歌曲都會被經由工作人員耗時30分鐘左右,有選擇性標注一些標簽,並以從0到5的分值代表這一標簽的表征程度。

UGC產出:在豆瓣音樂,音樂的標簽化體系源於普通網友的貢獻。群體的力量為豆瓣積累了大量具有語義表意性的標簽。

而由於用戶的多樣性和編輯的開放性,用戶標簽需要經過特定的清洗和歸一化才能投入使用。

而在用戶畫像層面,則可以大致劃分為靜態和動態畫像兩個層面。

靜態畫像:即用戶的設備資訊、地理位置、注冊資訊等等。通常,我們將用戶的靜態資訊認為是業務無關資訊。

動態畫像:用戶在使用某一項業務時,和業務所提供內容服務產生互動後的顯性或隱性種種行為,構成了用戶畫像的動態部分。以影片消費場景為例,點讚、評論、分享等種種顯性動作都會讓用戶與相應的內容標簽產生關聯。而拖拽行為、播放完成度、頁面停留時長等隱性行為則得以讓系統更好的衡量用戶在特定標簽下的偏好程度。

內容畫像和用戶畫像,借由業務場景下的互動,構成了一個相互影響的循環系統。

內容畫像決定人的畫像,自然是最容易理解的。在音樂場景下,你收聽、收藏、評分了很多爵士類的音樂,那麽系統就會判定為你是一個喜歡爵士音樂的用戶;在讀書場景下,你完整閱讀、點評了哪些書籍,哪些書籍做了筆記,哪些書籍只是潦草翻閱,都會影響系統中你的用戶畫像。

因此,“你的選擇決定你的畫像”可以說絲毫不為過。

而反過來,用戶的畫像也會影響到內容的畫像。我們可以將其看作是基於典型畫像的用戶行為對內容做出的後驗投票。

在一個大體量的影片上傳體系裡,人工打標簽的方式已經不具有可行性了,只有用戶的播放行為才有助於我們更好的揣測影片內容的分類。

在實際工程應用中,由於內容的複雜性與多樣性,畫像遠不止於預設的標簽集合。在這種情況下,我們引入了聚類的方式來表征內容。

在聚類的方式下,我們不再試圖用標簽詞來描述事物,而是基於某一維度的特徵將相關的物品組成一個集合,用“物以類聚”來試圖說明內容的特徵。比如,一段藏獒捕食的影片,會同動物世界裡猛獸捕食的內容聚為一類,而不會同家貓捕捉老鼠的內容聚為一類。

?

協同過濾,群體智慧

如前所述,標簽的應用更多的是在幫助我們快速建立對事物的抽象理解。而由於前置標簽系統的有限性和封閉性,必然不足以應對更複雜多變的新增場景。比如,一則大吃豬肘子的短影片,你應該如何標簽或分類?是美食還是獵奇,亦或是生活記錄?

放棄標簽,轉而以用戶的群體消費行為進行分類和記錄,這就是協同過濾的基礎思想。

舉一個生活中的場景,初次為人父母,“無證上崗”的新手爸媽們內心是激動而又惶恐的。打聽,成了他們育兒的重要法寶之一。

“你家寶寶用的是什麽沐浴液啊、你們有沒有上什麽早教班啊…”親子群中,無時無刻不在發生這樣的討論,這樣的討論也構成大家後續消費決策的主要因素之一。

這種基於人和人之間的相互推薦固然是弱社交關係分發的一種形態,但是促成大家有價值資訊交換和購買轉化的,其實是人和人之間的相似點:為人父母、擁有相似的價值觀和消費觀。

把用戶的消費行為作為特徵,以此進行用戶相似性或物品相似性的計算,進行資訊的匹配,這構成了協同過濾(Collaborative Filtering)。

協同推薦可以分為三個子類:基於物品(Item-based)的協同、基於用戶(User-based )的協同和基於模型(Model-based)的協同。

基於用戶的協同,即切合了上面的例子,其基礎思路分為兩步:找到那些與你在某一方面口味相似的人群(比如你們都是新手爸媽,傾向於同一種教育理念),將這一人群喜歡的新東西推薦給你。

基於物品的協同,其推薦的基礎思路是:先確定你喜歡物品,再找到與之相似的物品推薦給你。只是物品與物品間的相似度不是從內容屬性的角度衡量的,而是從用戶反饋的角度來衡量的。

使用大規模人群的喜好進行內容的推薦,這就是在實際工程環境裡,各家公司應用的主流分發方式。

基於模型的協同,是應用用戶的喜好資訊來訓練算法模型,實時預測用戶可能的點擊率。比如,在Netflix的系統中就將受限玻爾茲曼機(Restricted Boltzmann Machines, RBM)神經網絡應用於協同過濾。將深度學習應用於基於模型的協同,也成為了業界廣泛使用的方式。

?

由冷到熱,內容的算法分發生命周期

作為連接內容與人的推薦系統,無時無刻不在面對著增量的問題:增量的用戶,增量的內容。

新的用戶、新的內容對於推薦系統來說都是沒有過往資訊量積累的、是陌生的,需要累積一定的曝光量和互動量(閱讀、分享等)來收集基礎數據。這個從0到1積累基礎數據的過程就是冷啟動,其效果的好壞直接關係到用戶端、作者端的滿意度和留存率。

如果我們假設一篇新內容要經過100次閱讀才能夠得到相對可信的內容畫像,新用戶同樣需要完成100次閱讀之後才能夠建立起可用的用戶畫像。那麽一個最直觀的問題就是:怎麽樣達成這100次有效的閱讀?

這就是冷啟動面臨的問題。下面我們從內容和用戶兩個維度來分別論述。

在推薦系統中,通過分析一篇內容的標題、關鍵字來確定要向哪個目標人群進行探索性展示,借由探索性展示完成了從0到1的用戶反饋積累過程。

在這個冷啟動過程中,如果沒能得到足夠正面的用戶反饋(點擊行為和閱讀體驗),系統就會認為這篇內容是不受歡迎的,為了控制負面影響,就會逐步降低這篇內容的推薦量。

反之,如果內容在冷啟動過程中順利找到了自己的目標人群,收獲了很高的點擊率,就有可能被推薦系統快速放大,具有了成為爆款的可能。

因此,冷啟動決定一篇內容命運的說法,可以說絲毫不為過。

以時下最火熱快手類小影片應用為例,一則影片在分發過程中的生命周期,亦跳不脫“豐富先驗資訊、依賴後驗資訊”這一定律。

在一個小影片應用裡面,大體上會有三類人:半職業或職業的生產者、影片工具的使用者、影片內容的消費者。

從資訊的消費性角度來看,其結合方式大概率是第一類人生產,第三類人消費。先驗資訊就是盡可能多挖掘出第一類人的固有特徵,比如作者是誰(考慮關注分發)、配的音樂是什麽、是否有參與活動話題(考慮活動分發)等等,對於足夠的頭部生產者還可能會以運營介入的方式去人工標注,去完善先驗資訊。

客觀上說,小影片先驗資訊的豐富程度是遠小於文本內容的,我們將其類比微博類的短文本內容或者全圖片內容可能會更合適。先驗資訊的缺乏,使得小影片的分發過程更依賴協同算法支撐下,用戶參與行為的後驗資訊的補充。

在冷啟動的環節裡,一則小影片會分發給特定類別的用戶來查看,系統從用戶角度去統計不同聚類用戶的播放情況(如完整播放、分享、點讚、評論、重複播放等),以用戶行為的後驗資訊去刻畫小影片特徵,以解答:“哪一類用戶會喜歡這則影片”這一問題。

比如,時下很熱的海草舞,不同的生產者都會上傳類似主題的影片,哪個更好?

在業務場景裡,真正值得依賴的一定不是專家,而是基於普通用戶真實觀看行為的投票,才能選擇出更值得擴散內容,用以優化全局的效率。

對於用戶冷啟動,算法分發所做的則是一個剪枝和快速收斂的過程。

這是因為算法分發首先服務的是業務的大目標,即用戶的留存率。畢竟,只有保證了留存率的前提下,盡可能的留住用戶之後,系統才會有進一步探索用戶的可能性。人都留不住,推薦的多樣性、興趣探索等等自然無從談起。

因此,算法分發會更傾向於在有限次數的展示裡盡可能快的探索出用戶的興趣點,會從覆蓋面大的興趣內容開始,逐步縮小範圍,以用戶的點擊反饋來確定其更感興趣的類目,並通過快速強化已知興趣偏好下的內容分發量來試圖留住用戶。

?

三分天下?編輯、算法與社交

不誇張的說,算法分發將是未來資訊分發行業的標準配置。

為什麽這麽說?因為算法是個筐,什麽都能往裡裝。在內容展現和推薦的過程當中,可以參考下述公式:算法分發權重=編輯分發權重 + 社交分發權重 + 各種算法產出權重。

如果將任意一個權重設定為1,其他設定為0,算法分發系統就會變成一個標準的編輯分發系統或者是社交分發系統。也就是說,算法分發的基線就是編輯分發或社交分發。

從這個角度來看,只要算法應用的不太差,基本上引入算法分發一定是正向。因為它在有限的貨架裡,圍繞用戶展示了無限的貨品。

在業務層面,我們通常會複合型使用三種分發,在不同的環節應用不同的因素,才達到最好的效果。

以知乎讀書會為例,我們將其劃分為:內容生產、用戶觸達和反饋改進三個部分。

在內容生產中,為了保證調性,一定是需要引入編輯專家去選人、選書的。選擇的書是否有價值,選擇的人是否是行業專家,還是職業的拆書人,都是體現產品價值觀判斷的事情。

當內容從生產進入流通,進入觸達環節後,為了追求效率的最大化,人工乾預的作用就會相對弱化。

獲得更多的PTT最新消息
按讚加入粉絲團