受發展心理學啟發，研究員開發出能預測物體運動的AI模型

公開日: 2020-02-28

人類可以輕鬆地識別事物並對其行為進行推理，這是我們認知發展的核心。即使是兒童，他們也會根據物體動態對其進行細分，並用持久性、穩定性、連續性的概念來解釋物體發生了什麽，以及推測在其他情況下物體會發生什麽。

受此啟發，為了簡化人工智能模型的視覺識別問題，來自麻省理工學院-IBM Watson人工智能實驗室、麻省理工學院計算機科學與人工智能實驗室、DeepMind和哈佛大學的一組研究人員引入了一套動態視頻推理基準——CLEVRER，並開發出了一套能預測物體運動的模型。

CLEVRER包含了由物理引擎生成的2萬多個時長為5秒的碰撞物體視頻，每個視頻裡包含了三種形狀、兩種材料和八種顏色。同時還包括30多萬個問題和答案。這些視頻和問題全部都集中在邏輯推理的四個要素上：描述，什麽顏色；說明，什麽原因造成；預測，接下去會發生什麽；反事實，如果發什麽。

模型運行示意圖

通過解析CLEVRER，研究人員確定了在描述性、解釋性、預測性和反事實性問題上，訓練AI模型需要的內容，分別是：對物體、事件之間的運動、因果關係，以及背後的邏輯關係進行推理的符號描述。隨後，研究人員據此開發了神經符號動態推理模型（NS-DR）。

這個模型實際由四個部分合成。分別是：視頻幀解析器，神經動態預測器，問題解析器和符號程序執行器。給定輸入視頻，視頻幀解析器會檢測場景中的對象並提取其軌跡和屬性（即位置，顏色，形狀，材質）。形成視頻的抽象描述後，將其發送到神經動態預測器以預測對象的運動和碰撞。問題解析器接收輸入問題以獲得代表其邏輯的功能程序。然後，符號程序執行器在動態場景上運行該程序並輸出答案。

根據該團隊報告，在用1000個程序應用了該模型後，他們的模型對問題的識別準確率達到了88.1％，優於其他基準模型。在解釋性，預測性和反事實性問題上，則有更好的表現。

研究人員指出：“ NS-DR 將動態規劃納入視覺推理任務中，可以直接預測未觀察到的運動和事件，並可為預測性和反事實性任務啟用。其次，符號描述為視覺，語言，動力和因果關係提供了強大的基礎。通過設計，它使模型能夠明確捕捉視頻的因果結構和問題背後的邏輯構成。”

不過，研究人員也承認，即便訓練所需的數據量相對較少，但模型在實際應用中仍很難使用。此外，在需要長期動態預測的任務（例如反事實問題）上，NS-DR的性能也沒有那麽高，這表明未來仍需要一種能夠生成更穩定和準確軌跡的動態模型。