谷歌、斯坦福研究人員如何應對人工智慧安全中的具體問題？

圖片來自「123rf.com.cn」

自谷歌，斯坦福，加州大學伯克利分校和OpenAI 的研究人員發表論文「人工智慧安全中的具體問題」以來，已有將近兩年的時間了，但該論文依然能是人工智慧安全領域最重要的研究之一，涵蓋了人工智慧開發人員需要了解的各種安全問題。

在論文中，作者探討了人工智慧系統中的意外和有害行為，以及避免事故所應採取的不同的策略。具體而言，作者提出的五大對策包括- 避免副作用、獎勵黑客攻擊、可擴展監督、安全研究以及分散式變更的可靠性(Robustness to Distributional Change) ，並以辦公室清潔機器人為例進行了說明，具體如下：

1.避免人工智慧的副作用

在設計AI系統的目標函數時，設計者指定目標但不指定系統要遵循的確切步驟。這使人工智慧系統能夠提出新穎而有效的戰略來實現其目標。

但如果目標函數沒有明確定義，AI開發自己的策略的能力可能會導致意想不到的有害副作用。例如一個機器人的目標功能是將盒子從一個房間移動到另一個房間。目標似乎很簡單，但有很多方法可能會出錯。例如，如果花瓶在機器人的路徑中，機器人可能會將其擊倒以完成目標。由於目標函數沒有提到任何關於花瓶的東西，機器人不知道要避開它。人們認為這是常識，但人工智慧系統並不具備我們對世界的認知。將目標表述為「完成任務X」是不夠的; 設計者還需要指定完成任務的安全標準。

一個簡單的解決方案就是每當它對「環境」產生影響時對機器人進行處罰 – 例如敲擊花瓶或刮擦木地板。但是，這種策略可能會導致機器人無所適從動彈不得，因為所有操作都需要與環境進行某種程度的互動(從而影響環境)。更好的策略可以是定義允許AI系統影響環境的「預算」。這將有助於在不癱瘓AI系統的情況下最小化意外損害。此外，這種用「預算」策略非常通用，可以在很多人工智慧應用中任務中使用，從清潔、駕駛、金融交易、乃至AI系統能做的任何事情。

另一種方法是訓練人工智慧系統識別有害的副作用，使其能夠自主避免可能產生副作用的行為。在這種情況下，人工智慧代理將針對兩個任務訓練：由目標函數指定的原始任務和識別副作用的任務。這裡的關鍵思想是，即使主要目標不同，甚至當它們在不同的環境中運行時，兩個任務也可能產生非常類似的副作用。例如，房屋清潔機器人和房屋塗裝機器人都不應該在工作時撞倒花瓶。類似地，清潔機器人不應損壞地板，無論其在工廠還是在房屋中操作都是如此。這種方法的主要優點是，一旦人工智慧代理學會避免對一項任務的副作用，它就可以在訓練另一項任務時攜帶這些知識。

雖然設計限制副作用的方法很有用，但這些策略本身並不充分。在現實環境中部署之前，AI系統仍需要經過大量測試和關鍵評估。

2. 設定獎勵裁判

AI系統設計中有可能存在為了達到目標「不擇手段」的漏洞，由於AI培訓的目標是獲得最多的獎勵，因此AI往往會找出一些出人意料的尋找達成目標的漏洞和「快捷方式」。例如：假設辦公室清潔機器人獲得獎勵的前提條件是在辦公室看不到任何垃圾，那麼機器人可能會發現一種「便捷方式」——關閉其視覺感測器的方法來「達成目標」，而不是清理場所，但這顯然是錯誤的「成功」。在更加複雜的人工智慧系統中，AI兄嘗試利用「體制漏洞」的問題更加凸顯，因為複雜人工智慧系統的互動方式更多，目標更模糊，人工智慧系統的自主裁量自由度更大。

防範AI系統「不擇手段」的一種可能方法是設立「獎勵代理」，任務是判斷給學習代理的獎勵是否有效。獎勵代理確保學習代理(我們的示例中的清潔機器人)不利用系統漏洞，而是完成所需的目標。在前面的示例中，人工設計師可以訓練「獎勵代理人」以檢查房間是否有垃圾(比清潔房間更容易)。如果清潔機器人關閉其視覺感測器並要求高回報，則「獎勵代理」將獎勵標記為無效。然後，設計者可以查看標記為「無效」的獎勵，並對目標函數進行必要的更改以修復漏洞。

3. 可擴展的監督

當人工智慧代理學習執行複雜任務時，人工監督和反饋比僅從環境中獲得獎勵更有幫助。獎勵通常被建模，以便它們傳達任務完成的程度，但它們通常不會提供關於代理行動的安全影響的充分反饋。即使代理成功完成任務，它也可能無法僅從獎勵中推斷出其行為的副作用。在理想的環境中，每當代理執行一個動作時，人就會提供細粒度的監督和反饋。雖然這可以為代理人提供關於環境的更多資訊，但這樣的策略需要人類花費太多時間和精力。

解決這個問題的一個很有前景的研究方向是半監督學習，其中代理仍然在所有動作(或任務)上進行評估，但僅在這些動作(或任務)的一小部分樣本中獲得獎勵。例如，清潔機器人將採取不同的行動來清潔房間。如果機器人執行有害行為 – 例如損壞地板 – 它會對該特定動作產生負面回報。任務完成後，機器人將對其所有操作的整體效果進行評估(並且不會針對每個操作單獨評估，例如從樓層拾取物品)，並根據整體性能給予獎勵。

另一個有前景的研究方向是分層強化學習，在不同的學習代理之間建立層次結構。這個想法可以通過以下方式應用於清潔機器人。將有一個主管機器人，其任務是將一些工作(例如，清潔一個特定房間的任務)分配給清潔機器人並向其提供反饋和獎勵。主管機器人本身只需要很少的動作 – 為清潔機器人分配一個房間，檢查房間是否乾淨並提供反饋 – 並且不需要大量的獎勵數據來進行有效的訓練。清潔機器人執行更複雜的清潔房間任務，並從主管機器人獲得頻繁的反饋。同一個主管機器人也可能忽略了多個清潔劑的培訓。例如，主管機器人可以將任務委派給各個清潔機器人，並直接向他們提供獎勵/反饋。主管機器人本身只能採取少量的抽象動作，因此可以從稀疏的獎勵中學習。

4. 安全探索

培訓AI代理的一個重要部分是確保它探索和理解其環境。雖然在短期內探索環境似乎是一個糟糕的策略，但從長遠來看，它可能是一個非常有效的策略。想像一下，清潔機器人已經學會識別垃圾。它撿起一塊垃圾，走出房間，把它扔到外面的垃圾桶裡，回到房間裡，尋找另一塊垃圾並重複。雖然這種策略有效，但可能還有另一種策略可以更好地運作。如果代理花時間探索其環境，可能會發成屋間內有一個較小的垃圾箱。而不是一次一件地來回，代理商可以先將所有垃圾收集到較小的垃圾箱中，然後單程行將垃圾扔進外面的垃圾箱。除非代理旨在探索其環境，否則它不會發現這些節省時間的策略。

然而， 在探索時，代理人也可能採取一些可能會損害自身或環境的行動。 例如，假設清潔機器人在地板上看到一些汙漬。代理人決定嘗試一些新策略，而不是用拖把擦洗汙漬。它試圖用鋼絲刷刮掉汙漬並在此過程中損壞地板。很難列出所有可能的故障模式並對代理進行硬編碼以保護自己不受其影響。減少傷害的一種方法是在最糟糕的情況下優化學習代理的性能。在設計目標函數時，設計者不應假設代理將始終在最佳條件下運行。可以添加一些明確的獎勵信號以確保代理不執行某些災難性行為。

另一種解決方案可能是減少代理對模擬環境的探索或限制代理可以探索的程度。這是一種類似的預算代理影響的方法，以避免負面影響，但需要注意的是，現在我們要預算代理可以探索環境的程度。或者，AI的設計者可以通過演示在不同場景下最佳行為的演示來避免探索的需要。

5. 分散式變化的可靠性

在現實環境中部署AI代理的一個複雜挑戰是：代理可能會遇到以前從未經歷過的情況。這種情況更難以處理，並可能導致代理人採取有害行動。請考慮以下情況：清潔機器人已經過培訓，可以在處理所有先前的挑戰時清潔辦公太空。但今天，一名員工把一株小植物留在了辦公室。由於清潔機器人以前沒有看過任何植物，它可能會認為該植物是垃圾並將其丟棄。因為人工智慧意識不到這是一個新情況，一切照舊。目前一個比較有前途的研究方向是判定人工智慧代理何時遇到了新情況，並「意識到」犯錯的幾率大增。雖然這並沒有完全解決AI系統對未預見環境的適應問題，但它有助於在錯誤發生之前發現問題。另一個值得關注的研究方向是強調將知識從熟悉的場景轉移到新場景中。

結論

簡而言之，人工智慧技術的總體趨勢是增加系統的自主性，但是隨著自主權的增加，出錯的可能性也在增加。與人工智慧安全相關的問題更多出現在人工智慧系統直接控制其物理和/或數字環境而無需人工介入的情況，例如自動化工業流程、自動化金融交易演算法、政黨控制的人工智慧社交媒體活動、自動駕駛汽車、清潔機器人等。挑戰可能是巨大的，但《人工智慧安全的具體問題》這篇論文已經讓AI社區意識到了高級人工智慧系統可能潛藏的安全問題，以及預防和應對之道。