谷歌推出新算法，要替你“腦補”電視劇

很多人特別喜歡在追劇的時候，猜下一集要發生什麽事情。由於電視劇的發展都是通過視頻和故事來聯動的，所以這很容易。但是，假如機器想要做這件事，就變得困難很多，特別是在標簽數據相對缺乏的情況下，沒有大數據的支撐，AI 很難做出算力和算法，也就很難預測下一個視頻鏡頭的場景。

或許這就是谷歌科學家團隊研究其算法的原因，如今，這一能力終於被“搞定”了。根據 Google（谷歌）AI 官方部落格的最新消息，谷歌研究團隊開發出一種名叫VideoBERT 的自我監督系統，處理各種代理任務，通過算法和算力預估句子之間的關係，在從未標記的視頻中學習跨模態時間表示。

簡單來說，谷歌這套系統，就是隨著時間推移，提前可以預估視頻的下一個動作和鏡頭，類比和模擬出來，目標就是將預估視頻中展開的事件和動作與實際發生的一一對應。

例如上面的一段動圖，這就是 VideoBERT 所要達到的跨模態學習。時間上，兩個炒菜的視頻從語音與視覺信號對齊，並且可以通過使用現成的自動語音識別（ASR）系統來提取，因此提供了自我監督的自然來源。

這一研究的作者，谷歌研究員科學家 Chen Sun 和 Cordelia Schmid 在部落格中表示，VideoBERT 自我監督系統不僅可用於零射擊動作分類和相關模擬生成，而且可以很好地轉移到動作預期等任務當中。此外，谷歌研究團隊也計劃將預培訓視頻的數量擴大到更大、更多樣化，為提高算力做準備。

VideoBERT 系統形成歷程

去年 11 月，谷歌宣布推出全新的自然語言 AI 預訓練系統 BERT，其旨在模擬句子之間的關係。具體來說，他們使用與語音識別系統句子輸出相結合的圖像幀，根據特徵相似性將幀轉換為 1.5 秒的視覺標記，並將它們與單詞標記連接起來。然後，他們要求 VideoBERT 從視覺文本句子中填寫缺失的令牌。

研究人員為 VideoBERT 培訓了超過一百萬種教學視頻，包括烹飪、園藝和汽車維修。為了確保它學習視頻和文本之間的語義滿足一一對應關係，團隊在視頻數據集上，既沒有使用視頻也沒有使用注釋，來測試其技術的準確性。結果表明，VideoBERT 成功地預測了一碗麵粉和可可粉在烤箱烘烤後可能成為布朗尼或蛋糕的情況，從視頻片段中截成一組動圖，說明（例如食譜）（令牌）反映了每一步所描述的內容。

（來源：谷歌 AI 官方）

雖然 VideoBERT 在學習如何自動標記和預測視頻內容方面取得了令人矚目的成果，但你要知道，視頻的對應並不像圖像的模擬效果，是需要更多的視覺信息，在目前的技術範圍內，VideoBERT 的視覺令牌往往會丟失細粒度的視覺信息，例如較小的物體和微妙的動作。

所以，該團隊使用一種名為 Contrastive Bidirectional Transformers（CBT）的模型解決了這一問題，該模型刪除了標記化步驟，並通過下遊任務的轉移學習進一步評估學習表示的質量。CBT 應用不同的損失函數，即對比損失，以便最大化掩蔽位置和其余跨模態句子之間的相關信息。根據一系列關於行動細分、行動預測和視頻字幕的數據集進行評估，根據谷歌的說法，CBT 在大多數基準測試中的表現都顯著超過了現有技術。

谷歌表示，在 CBT 模型的加持下，結果證明了 BERT 模型在學習未標記視頻的視覺語言和視覺表現方面的強大功能。而通過 VideoBERT 系統，不僅可用於零射擊動作分類和配方生成，而且可以更好地做相關代理任務，例如動作預期。未來的工作包括與長期時間表示一起學習低級視覺特徵，從而更好地適應視頻環境。

谷歌華人科學家和 IEEE 專家共同操刀

根據谷歌方面的信息顯示，這一研究成果是由谷歌的華人科學家 Chen Sun 和法國國家信息與自動化研究所 Cordelia Schmid 共同發表的，其核心成員包括法國國立應用科學學院 Fabien Baradel、康奈爾大學 Jack Hessel 等人，都是 AI 領域和機器學習方面的專家和“大拿”。

值得一提的是，Chen Sun 是一位 AI 領域非常知名的研究者，目前其 Title 是谷歌研究科學家，也是一位“清華人”，2011 年，Chen Sun 畢業於清華大學計算機科學系。然後在美攻讀博士，2015 年畢業於南加州大學的哲學博士（PhD），計算機科學學位。

圖｜Chen Sun（來源：谷歌學術官網）

2014 年，他加入了 Google Research 團隊，2015 年曾短暫在 Facebook 的 AI Research (FAIR）團隊工作過，之後到舊金山的谷歌研究團隊工作，直到現在。根據其所述，目前他與 INRIA 研究總監 Cordelia Schmid 密切合作，研究類型包括人類動作識別和視頻動態預測，曾從事物體檢測和網絡監督學習等。

2016 年，Chen Sun 和同事一起，贏得了當年的 COCO 物體檢測挑戰（COCO object detection challenge），以及 2017 年的 iNaturalist 挑戰（iNaturalist challenge 2017）。他們研究的對象檢測算法已作為 Tensorflow Object Detection API 進行開源。為了促進對機器感知的研究，Chen Sun 還致力於數據集收集，特別是用於人類行為識別的原子視覺動作數據集，用於物體檢測的開放圖像數據集和 iNaturalist 用於細粒度識別的數據集等。

圖｜Cordelia Schmid

另外一位 Cordelia Schmid，是谷歌的兼職科學家，擁有卡爾斯魯厄大學的計算機科學碩士學位和格勒諾布爾國立綜合理工學院（INPG）的計算機科學博士學位。她的博士論文於 1996 年獲得 INPG 頒發的最佳論文獎。

自 1997 年以來，她在 Inria 擔任永久性職位，即法國國立計算機及自動化研究院的研究總監。另外，Schmid 博士是 IEEE PAMI（2001—2005）和 IJCV（2004—2012）的副主編，IJCV（2013 ---）的主編。她在 2016 年獲得 Inria 和法國科學院大獎。是機器智能和機器感知方面的專家。

2018 年 2 月開始，Schmid 博士被谷歌邀請，在 Google France 做兼職（50％），所以她現在是谷歌的兼職科學家。

-End-

參考：

https://venturebeat.com/2019/09/11/googles-videobert-predicts-what-will-happen-next-in-videos/

https://ai.googleblog.com/2019/09/learning-cross-modal-temporal.html?m=1

https://ai.google/research/people/CordeliaSchmid/

https://scholar.google.com/citations?user=vQa7heEAAAAJ&hl=zh-CN

關注 DeepTech

發現改變世界的新興科技

（微信號:deeptechchina)

坐標：北京·國貿

請隨簡歷附上3篇往期作品（實習生除外）