Google AI用“語義連貫”將對象物亂入各種場景製作

公開日: 2018-12-15

文章相關引用及參考：venturebeat

以“語義連貫”的方式來將對象插入至圖形中的系統。

（映維網 2018年12月15日）對於電腦而言，通過後期製作軟體來布置場景實際上相當不易。它不僅需要確定所述對象的適當位置，同時需要嘗試預測對象在目標位置的外觀：比例，遮擋，姿勢和形狀等等。

幸運的是，人工智能有望伸出援助之手。上周NeurIPS 2018大會公布了一篇論文（“Context-Aware Synthesis and Placement of Object Instances（對象實例的情景感知合成和放置）”，韓國首爾國立大學，美國加州大學美熹德分校，以及Google AI的研究人員描述了一種能夠以“語義連貫”的方式來將對象插入至影像中的系統。

研究人員寫道：“對於將對象插入符合情景語義的影像之中，這是一項具有挑戰性和有趣的任務。與此同時，這項任務與眾多實際應用密切相關，包括影像合成，AR和VR內容編輯…這樣的對象插入模型可能有助於眾多的影像編輯和場景解析應用程式。”

他們的端到端框架包括兩個模塊：一個模塊確定在哪裡插入對象；另一個模塊確定插入後的樣式。系統將利用GAN，或者由生成器（生成樣品和鑒別器）組成的二體神經網絡，然後試圖區分生成的樣本和真實世界的樣本。因為系統同時對插入影像的分布建模，所以兩個模塊能夠相互通信並相互優化。

論文作者寫道：“這項研究的主要技術創新在於，我們構建了一個端到端的可訓練神經網絡，能夠從聯合分布中為新對象采樣合理的位置和形狀。合成對象實例既可以用作基於GAN的方法的輸入，也能夠從現有數據集中檢索最近的區段以生成新影像。”

研究人員解釋道，生成器可以預測“可信的”的位置並生成具有“語義連貫”比例，姿勢和形狀的對象蒙版，特別是關於對象在場景中的分布方式，以及如何自然地插入對象。隨著時間的推移，人工智能系統將能夠根據場景條件學習每個類別的不同分布。例如在城市街道的影像中，人類往往出現在人行道上，而汽車通常出現在路線上。

在測試中，研究人員的模型能夠插入逼真形狀的對象。當影像識別器YOLOv3應用於AI產生的影像時，檢測合成對象的召回率是0.79。更有說服力的是，在對亞馬遜Mechanical Turk工作人員的調查中，43％的受訪者認為人工智能生成的對象是真實對象。

論文指出：“這表明我們的方法能夠執行對象合成和插入任務。由於我們的方法能夠同時建模‘在哪裡’和‘什麽樣’，它可以用於解決其他電腦視覺問題。未來有趣的研究之一是處理對象之間的遮擋。”

文章《Google AI用“語義連貫”將對象物逼真地亂入各種場景製作》首發於映維網.