多任務智能體的一大步：DeepMind一次搞定57種

雷鋒網 AI 科技評論按：多任務學習，也就是讓單個智能體學習解決許多不同的問題，是人工智能研究中的長期目標。最近，該領域取得了許多重大進展，DQN 等智能體可以使用相同的算法玩不同的遊戲，包括 Atari 遊戲「Breakout」（打磚塊）和「Pong」（乒乓球）遊戲。這些算法以前為每項任務分別訓練不同的智能體。隨著人工智能研究深入到更多複雜的現實世界領域，構建單個通用智能體（與多個分別擅長不同任務的智能體相反）來學習完成多個任務將變得至關重要。然而，截至目前，這一任務依然是一個重大挑戰。DeepMind 近期的一項研究就提出了自己的重大改進。雷鋒網 AI 科技評論把研究介紹編譯如下。

要做出能掌握多種不同任務的智能體的難點之一在於，強化學習智能體用來判斷成功的獎勵等級往往有所不同，導致他們將注意力集中在獎勵更高的任務上。拿「Pong」（乒乓球）遊戲來舉例，智能體每一步有三種可能的獎勵：-1（AI沒接住對方發來的球，不僅沒掙分，反而倒貼一分）、0（AI接住了球，進入了敵我雙反循環往複的彈球過程，費了老勁卻沒有任何回報）、+1（AI終於扳回了一局，才能得1分，實屬得之不易）；但在吃豆人（Ms. Pac-Man）這個遊戲裡面就不同了，只要一出門，就可以吃到一連串的豆豆，因而智能體可以在單個步驟中獲得數百或數千分。即使單次獲得的獎勵的大小可以比較，但隨著智能體不斷進化，獎勵的頻率可能會隨著時間發生變化。這意味著，只要不被敵人抓到，吃豆的獎勵明顯比打乒乓球高得多。那麽，智能體當然會沉迷吃豆（得分高的任務），全然忘記自己還肩負學會其它得分不易遊戲的重任。

「PopArt」

為了不放任智能體胡來，DeepMind推出了PopArt。這一技術可以讓不同遊戲的獎勵尺度互相適應起來，無論每個特定遊戲中可以得到的獎勵有多大，智能體都會認為每個遊戲具有同等的學習價值。研究人員用 PopArt 的正態化方法調整了當前最先進的強化學習智能體，使得一個 AI 可以學會多達 57 種不同的 Atari 遊戲了，而且在這些遊戲中的得分也超過了人類得分的中位數。

從廣義上來說，深度學習依賴於神經網絡權重更新，其輸出不斷逼近理想目標輸出。神經網絡用於深度強化學習中時也是如此。PopArt 的工作原理，就是估算各種目標的均值以及分散程度（比如把遊戲中的得分作為目標）。然後，在更新權重之前，用這些統計數據，把更新網絡權重時作為參考的目標歸一化。這樣一來，學習過程就會變得比較穩定，不容易因為獎勵尺度之類的因素改變而發生改變。為了得到準確的估計（如預期未來分數），網絡的輸出可以通過反轉歸一化過程縮放到真實目標範圍。

如果按照這樣的想法直接去做的話，目標統計數據的每次更新都將改變所有未歸一化的輸出，包括那些已經很好的輸出，這樣會造成表現的下降。DeepMind 研究人員的解決方案是，一旦統計數據有更新，他們就把網絡向著相反的方向更新；而這種做法是可以準確地執行的。這意味著我們既可以獲得尺度準確的更新的好處，又能保持以前學習到的輸出不變。正是出於這些原因，該方法被命名為 PopArt：它在運行中既能精確地保持輸出，又能自適應地重新縮放目標。

PopArt 作為修剪獎勵的替代方案

一般來說，研究人員會通過在強化學習算法中使用獎勵修剪來克服變化獎勵範圍的問題。這種修剪方法把太大的和太小的，都裁剪到 [-1, 1] 的區間裡，粗略地歸一化期望獎勵。雖然這個方法會讓學習過程變得容易，但它也會讓學習目標發生變化。仍然以吃豆人（Ms. Pac-Man）舉例，智能體的目標就是吃豆和吃敵人，每顆豆 10 分，而每吃掉一個敵人會獲得 200 到 1600 不等的分數。如果用獎勵裁剪的話，吃豆和吃敵人可能就沒區別了。這樣訓練出來的AI，很可能隻吃豆，完全不去追敵人，畢竟吃豆容易。如下圖所示。

當移除獎勵裁剪方案，並使用 PopArt 歸一化代替剪裁步驟之後，訓練效果就截然不同了。智能體會去追敵人了，得的分數也高了許多。

利用 PopArt 進行多任務深度強化學習

DeepMind 將 PopArt 應用於Importance-weighted Actor-Learner Architecture（IMPALA）上，這是 DeepMind此前提出的、最常用的深度強化學習智能體。在實驗中，與沒有使用 PopArt 的基線智能體相比，PopArt 顯著提升了智能體的性能。不論仍然有獎勵修剪和還是去除了獎勵修剪，PopArt 智能體遊戲得分的中位數都超越了人類玩家得分的中位數。這遠遠高於有著獎勵修剪的基線智能體，而直接去掉了獎勵修剪的基線智能體完全無法達到有意義的性能，因為它無法有效地處理遊戲中獎勵規模的大範圍變化。

這是首次使用單個智能體在這種多任務環境中實現超越人類的表現，表明 PopArt 可以為這樣的開放性研究問題提供線索，即如何在沒有手動修剪或縮放獎勵的情況下平衡不同的目標函數。PopArt 實現在學習的同時自動適應歸一化的能力在應用 AI 到更加複雜的多模態領域時可能是很重要的，其中智能體必須學會權衡多個不同的具備變化獎勵的目標函數。

viadeepmind.com，雷鋒網 AI 科技評論編譯