不怕訓練數據少！MIT新研究：解鎖圖像理解只要5000張圖片

公開日: 2019-04-03

智東西(公眾號:zhidxcom)

編 | 王穎

導語：麻省理工AI實驗室研究符號AI模型，使用更少的數據進行學習，更清晰簡單的解釋這個世界。

智東西4月3日消息，麻省理工學院（MIT）、沃森人工智能實驗室（MIT-IBM Watson AI Lab）和DeepMind的最新研究證明，符號（symbolic）AI應用於圖像理解任務有巨大潛力。

在測試中，他們研發的混合模型成功地學會了比如物體的顏色、形狀等相關的概念。模型可以在沒有“明確編程”的情況下，使用很少的訓練數據，利用已掌握的概念在一個場景中找出物體之間的關係。

深度學習系統通過統計學習（

statistical learning

），挑選數據中的統計模式來解釋這個世界，這種方法需要大量數據，而且並不擅長將過去掌握的知識應用於新情況。符號AI與深度學習不同，它可以用更少的數據，記錄下為達成決策而采取的一系列步驟。

符號AI研究論文的主要作者 Jiayuan Mao說：“兒童學習一種概念需要將詞匯和圖像聯繫起來，但符號AI模型與兒童相比，學習同一種概念需要的數據要少得多，而且模型能更好的將知識轉化應用到新的場景中。”

符號AI模型包括：一個將圖像轉換為基於對象表示的感知組件、一個從單詞和句子中提取含義的語言層。語言層通過創建“符號程序”（symbolic programs），即指令，告訴 AI 如何回答問題。模型的第三個模塊在現場運行符號程序，並吐出一個答案，當模型出錯時對其進行更新。

研究人員根據史丹佛大學CLEVR圖像理解測試集中的相關問題和答案對圖像進行了訓練。（例如：“物體的顏色是什麽？”和“有多少物體都在綠色圓柱體的右側，並且與小藍球具有相同的材料？”）

符號AI模型掌握了所學對象同一級別的概念後，會進一步學習如何將對象及其屬性相互關聯。模型學習的過程中，問題的難度也隨之增加。

據研究人員報告，目前的AI系統進行訓練需要使用7萬張圖像和70萬個問題，但符號AI模型整個訓練過程，僅使用了5000張圖像和10萬個問題，並且能夠“幾乎完美地”解釋新的場景和概念。

研究小組將進一步改進符號AI模型在真實世界照片上的表現，並將其擴展應用到視頻理解和機器人操作。

論文鏈接：http://news.mit.edu/2019/teaching-machines-to-reason-about-what-they-see-0402

原文來自：VentureBeat