東京工業大學開發AI預測系統，可預測0.5秒後的動作

公開日: 2019-05-05

大數據文摘出品

來源：engadget

編譯：Andy、蔣寶尚

預測這件事情的重要性不言而喻。畢竟如果你比別人提前知道信息就能夠搶佔先機。

先不說搶佔先機這件事情，如果你能夠預測的對方接下來的動作，至少下面這種情況不會發生。

現在，通過人工智能或許能夠改善一些。

近日，東京工業大學研究小組發布了一套格鬥訓練系統“FuturePose”，通過深度學習能預測 0.5 秒後對手的動作。

在這項研究中，研究人員開發了一套系統，通過從一個 RGB 相機捕獲的圖像中，從 30 fps（1幀= 1/30秒）圖像中預測15幀後，即0.5秒後的動作，然後進行戰鬥訓練。對戰對手不同裝束，而受訓者可以戴 VR 頭盔來同時觀察對手的當前姿勢和預測的0.5秒後的姿勢。

首先，通過殘差網絡（學習輸出減去輸入殘差的機器學習）來分析RGB圖像，以估計對手的2D位置。該位置輸入到 LSTM（可以學習長時序列數據的模型）以學習時序特徵，並且預測未來的2D位置。

之後用網格光流（為向量來視覺化表示物體移動。通過將物體網格化減少計算量），將我們使用晶格光流（它表示物體的運動作為視覺表示中的矢量。物體的複雜性通過晶格簡化以減少計算量），將位置信息轉換成了人便於看的“運動”表示。

在視頻中，研究者分別進行了走路、跳躍以及拳擊等動作進行了測試

從上面可以看出，通過這種方式預測的姿勢由紅色骨架模型表示，同時人體運動的預測可以實時可視化。雖然0.5秒看起來很短，但實際上在早期的一些格鬥遊戲中，同樣 30 fps中因為一幀而導致勝負的情況也有，所以15幀可以說是一個很大的優勢。

之後在實驗中，讓佩戴了HTC Vive的用戶在沒有預測和有預測兩種情況下進行測試。結果是，沒有預測平均反應時間是0.62秒，而有預測的響應是大約0.41秒，這表明有預測的情況更容易避開攻擊。

此外，在實際實驗視頻中，確實反應速度會增加，但在現實情況下，因為大腦處理視覺信息到身體反應存在時滯，因此會造成還差一點點就能躲開但是沒躲開的感覺。雖然總能在超能力戰鬥漫畫中看到“我能在幾秒內看到未來”的敵人，但到底0.5秒還是太短了，可能還是得需要10多秒。

此外，該研究也適用於在線視頻，實驗證明它也可以預測足球守門員的動作和舞蹈的動作。於是我們就可以期待各種各樣的應用，比如觀眾在0.5秒前預測守門員是向左還是向右撲，還有在跳交際舞的時候通過預判對方的動作，讓舞蹈更流暢。

相關報導：

https://japanese.engadget.com/2019/04/24/0-5-futurepose/

志願者介紹

點「在看」的人都變好看了哦