人類可以輕鬆地識別事物並對其行為進行推理,這是我們認知發展的核心。即使是兒童,他們也會根據物體動態對其進行細分,並用持久性、穩定性、連續性的概念來解釋物體發生了什麽,以及推測在其他情況下物體會發生什麽。
受此啟發,為了簡化人工智能模型的視覺識別問題,來自麻省理工學院-IBM Watson人工智能實驗室、麻省理工學院計算機科學與人工智能實驗室、DeepMind和哈佛大學的一組研究人員引入了一套動態視頻推理基準——CLEVRER,並開發出了一套能預測物體運動的模型。
CLEVRER包含了由物理引擎生成的2萬多個時長為5秒的碰撞物體視頻,每個視頻裡包含了三種形狀、兩種材料和八種顏色。同時還包括30多萬個問題和答案。這些視頻和問題全部都集中在邏輯推理的四個要素上:描述,什麽顏色;說明,什麽原因造成;預測,接下去會發生什麽;反事實,如果發什麽。
模型運行示意圖
通過解析CLEVRER,研究人員確定了在描述性、解釋性、預測性和反事實性問題上,訓練AI模型需要的內容,分別是:對物體、事件之間的運動、因果關係,以及背後的邏輯關係進行推理的符號描述。隨後,研究人員據此開發了神經符號動態推理模型(NS-DR)。
這個模型實際由四個部分合成。分別是:視頻幀解析器,神經動態預測器,問題解析器和符號程序執行器。給定輸入視頻,視頻幀解析器會檢測場景中的對象並提取其軌跡和屬性(即位置,顏色,形狀,材質)。形成視頻的抽象描述後,將其發送到神經動態預測器以預測對象的運動和碰撞。問題解析器接收輸入問題以獲得代表其邏輯的功能程序。然後,符號程序執行器在動態場景上運行該程序並輸出答案。
根據該團隊報告,在用1000個程序應用了該模型後,他們的模型對問題的識別準確率達到了88.1%,優於其他基準模型。在解釋性,預測性和反事實性問題上,則有更好的表現。
研究人員指出:“ NS-DR 將動態規劃納入視覺推理任務中,可以直接預測未觀察到的運動和事件,並可為預測性和反事實性任務啟用。其次,符號描述為視覺,語言,動力和因果關係提供了強大的基礎。通過設計,它使模型能夠明確捕捉視頻的因果結構和問題背後的邏輯構成。”
不過,研究人員也承認,即便訓練所需的數據量相對較少,但模型在實際應用中仍很難使用。此外,在需要長期動態預測的任務(例如反事實問題)上,NS-DR的性能也沒有那麽高,這表明未來仍需要一種能夠生成更穩定和準確軌跡的動態模型。