人工智能靠什麽更快更強？答案是：好奇心

【獵雲網（微信號：ilieyun）】11月7日報導（編譯：Halcyon）

文章的開頭，先拋出一個問題：大家在玩電子遊戲的時候，一門心思投入進去，會發現自己根本停不下來，是什麽原因導致的呢？

這個問題可能有些寬泛，無法給出一個確切的答案。但如果你想要把接新任務，更新或者再玩一把等一系列概括起來，最簡單的解釋就是“好奇心”——只是想看看接下來會發生什麽。事實證明，在指導人工智能玩電子遊戲時，好奇心是一個非常有效的動力。

非營利人工智能研究公司OpenAI本周發布的一項研究解釋了一個具有好奇心的AI agent如何攻克經典的1984 Atari遊戲Montezuma's Revenge。熟練掌握Montezuma's Revenge算是人工智能的一大進步，但不能將其等同於打敗Go或Dota 2的裡程碑。谷歌旗下的人工智能公司DeepMind2015年發布了一篇開創性論文，解釋AI如果通過深度學習在許多Atari遊戲裡獲得高分，擊敗強大的人類玩家，其中Montezuma’s Revenge是唯一一款得分為0的遊戲，算法未能學習如何去玩這個遊戲。

遊戲難度高的原因在於它的操作方式與AI agent學習的方式不匹配，這也揭示出機器學習存在盲點。

要想AI agent掌握電子遊戲的玩法，通常需借助強化學習的訓練方法。在這種訓練中，agent會被放入虛擬世界，並且會因為某些結果而獲得獎勵（如增加分數），或是受到懲罰（如失去一條命）。AI Agent開始隨機玩遊戲，且能學會在反覆試驗之後改進其策略。強化學習通常被看作是構建智能機器人的關鍵方法。

Montezuma's Revenge的問題在於它不能為AI agent提供定期獎勵。這是一個益智類遊戲，玩家必須探索地下金字塔，躲避陷阱和敵人，同時收集解鎖門和特殊物品的鑰匙。如果你正在訓練AI agent攻克這款遊戲，可以在它活著通過各個房間並收集鑰匙時給予其一定的獎勵。但是你該如何教他保存其他物品的鑰匙，並使用這些物品來克服陷阱並完成關卡呢？

答案就是：好奇心。

在OpenAI的研究中，他們的agent獲得獎勵不僅僅是因為跳過尖峰，還為了探索金字塔的新板塊。探索新板塊的好奇心是一大動力，也促成了agent在遊戲中優於人類的表現，機器人在9次闖關中平均得分10000（人類平均得分4000）。OpenAI稱，在一次運行中，agent甚至通過了第一關。

OpenAI的Harrison Edwards告訴The Verge：“我們目前已經開發出一個可以探索大量房間，獲得大量獎勵，偶爾還能闖過第一關的系統。”並補充道，遊戲的其他關卡跟第一關類似，遊戲通關“只是時間問題。”

攻克“NOISY TV PROBLEM”

OpenAI並非第一家嘗試這種方法的實驗室，AI研究人員幾十年來一直在利用“好奇心”的概念作為誘因。他們之前也曾將此應用於Montezuma’s Revenge，但如果沒有指導人工智能從人類的例子中學習，就不會如此成功。

然而，儘管這裡的一般理論已經確立，但構建特定解決方案仍然具有挑戰性。例如，基於預測的好奇心僅在學習某些類型的遊戲時有用。它適用於瑪利歐這類遊戲，遊戲過程中探索太空大，關卡設定多，且充斥著從未見過的怪物。但對於Pong這種簡單遊戲，AI agent更願意打持久戰，而不是真正擊敗他們的對手。（或許是因為贏得比賽比遊戲中球的路徑更好預測。）

另一個實驗是“Noisy TV problem”，實驗中已被編程為尋找新體驗的AI agent沉迷於隨機模式，例如調諧至靜態噪音的電視。這是因為agent對“有趣”和“新”的感覺來源於他們預測未來的能力。在采取某種行動之前，他們會預測遊戲之後的情況。如果他們猜對了，很可能是他們之前已經看過這個關卡了。這種機制被稱為“預測錯誤”。

但因為靜態噪聲是不可預測的，實驗中AI agent被放入迷宮中，任務是找到獎勵最高的物體。環境中還有一台電視，電視上的頻道可由遙控器隨機轉換，因為每次換台的結果是不可預測的、令人驚訝的，面對這樣電視（或類似不可預測的刺激），AI agent變得十分迷惑。OpenAI將這個問題與沉迷於老虎機的人類賭徒進行了比較，人們不知道接下來會發生什麽，所以不捨得就此離開。

OpenAI的這項新研究通過改變AI預測未來的方式巧妙地回避了這個問題。準確的方法（稱為Random Network Distillation）十分複雜，Edwards和他的同事Yuri Burda將其解釋為在遊戲的每個界面中設定一些隱藏資訊，等著人工智能去挖掘。這個隱藏任務是隨機的，無多大意義（Edwards建議道，比方說“螢幕左上角的顏色是什麽？”），但可以激勵agent繼續探索遊戲，而不會讓它過分容易地受到噪音電視陷阱的影響。

值得注意的是，這個激勵因素並不需要大量的計算，這點非常重要。強化學習的方法依賴大量數據來訓練AI agent，所以訓練中的每一步都需要盡可能快速的完成。

來自Unity的軟體工程師Arthur Juliani，同時還是一位機器學習方面的專家，他表示，這正是OpenAI研究工作的亮點所在。Juliani告訴The Verge：“OpenAI使用的方法非常簡單，卻非常有效。縱觀過去應用於遊戲的探索方法，複雜有余，且基本上沒有給科技圈帶來多少印象深刻的結果，相比起來，OpenAI的方法就簡單得多了。”

Juliani表示，鑒於Montezuma’s Revenge不同關卡之間的相似性，OpenAI目前完成的工作基本上等同於攻克整個遊戲了。但他補充道：“事實上，他們無法確保每次都能闖過第一關，這意味著仍然存在一些挑戰。”Juliani還想知道OpenAI的方法是否適用於3D遊戲，3D遊戲的難度相較其他可能更大，視覺特徵更加微妙，且遊戲中第一人稱視角遮擋了大部分界面。

“3D遊戲裡，在需要探索的情景中，環境各部分之間的差異更為微妙，這種方法的實際表現可能不會太好，”Juliani說到。

好奇心

但是為什麽我們首先需要具備好奇心的AI呢？具備好奇心的AI跟人類一樣，很容易沉迷於隨機模式。

最大的原因是好奇心有助於電腦進行自我學習。

如今被廣泛採用的機器學習方法大致可分為兩個陣營：第一種，機器通過瀏覽大量數據來學習，並計算出可以應用於類似問題的模式；第二種，機器被投入環境中，利用強化學習方法獲得某些成就，從而獲得獎勵，也就是用獎勵刺激的形式促使機器學習。

這兩種方法在特定任務中都是有效的，但並非完全依靠機器自身進行，無論是標記培訓數據還是為虛擬環境設計獎勵功能，都離不開大量的人工。通過為人工智能系統提供探索的內在誘因，一些工作被消除，人類無需像從前一樣花費過多精力在機器學習上，在誘因的刺激下，機器能夠自主學習。

OpenAI的Edwards和Burda表示，這種好奇心驅使的學習系統比起設計開發在現實世界中運行的電腦程式要好得多。畢竟，跟Montezuma’s Revenge一樣，實際生活中，即時獎勵往往很少，我們都需要長時間工作、學習和探索才能得到回報。好奇心能幫助我們繼續前進，或許也可以幫助電腦。