每日最新頭條.有趣資訊

AlphaGo對局李世石兩周年紀:AI程式攻克圍棋的算法秘密

這篇文章的主角是AlphaGo,谷歌DeepMind團隊開發出的圍棋AI。其憑借著2016年擊敗全球頂尖棋手李世石的壯舉而廣受矚目。圍棋是一種古老的棋類遊戲,每一步都存在諸多選擇,因此接下來的落子位置很參議會預測——要求對弈棋手擁有強大的直覺與抽象思維能力。正因為如此,人們長久以來一直認為只有人類擅長下圍棋。大多數研究人員甚至認定,還需要數十年才會出現真正具備這種思考能力的AI。但如今距離AlphaGo對李世石的比賽已經過去了兩年(3月8日至3月15日),而本篇文章正是為了紀念這個偉大的日子!

不過更可怕的是,AlphaGo並沒有停止自己的前進腳步。8個月之後,它在某圍棋網站上以“Master”為名與全球各地的冠軍棋手進行了60盤職業對弈,且拿下全勝成績。

這當然是人工智能領域的一項巨大成就,並在全球引起了一股新的討論熱潮——我們到底該對人工智能的發展速度感到興奮,還是擔心?

今天,我們將以DeepMind在《自然》雜誌上發表的原始研究論文作為基礎,逐段對其內容進行簡單清晰的解讀,詳細介紹AlphaGo是什麽以及它的工作原理。我也希望大家能夠在閱讀本文之後,不再被媒體頭條拋出的聳人聽聞的標題所恐嚇,而真正對關於人工智能的發展感到振奮。

當然,你不需要掌握圍棋技巧,也同樣可以理解本文的觀點。事實上,我本人隻讀過網絡百科上的一丁點圍棋說明。相反,我其實會使用基礎的國際象棋示例來解釋相關算法。大家只需要了解雙人棋類遊戲的基本規則即可——每位選手輪流行動,最後將產生一位贏家。除此之外,你不需要了解任何物理學或高數知識。

這樣盡可能降低入門門檻,是為了能讓剛剛接觸機器學習或者神經網絡的朋友更容易接受。本文也刻意降低了表述複雜度,也是希望大家能把注意力盡量集中在內容本身。

內容摘要

AlphaGo對局李世石兩周年紀:AI程式攻克圍棋的算法秘密

眾所周知,AlphaGo項目的目標在於建立一款AI程式,並保證其能夠與世界頂級人類選手在圍棋領域一較高下。

為了理解圍棋帶來的挑戰,我們首先聊聊與之類似的另一種棋類運動——國際象棋。早在上世紀九十年代初,IBM公司出打造出深藍電腦,其在國際象棋比賽中擊敗了偉大的世界冠軍加裡·卡斯帕羅夫。那麽,深藍是如何做到這一點的?

事實上,深藍使用了一種非常“暴力”的作法。在遊戲的每一步,深藍都會對所有可能作出的合理棋步作出考量,並沿著每種棋步探索以分析未來的局勢變化。在這樣的前瞻性分析之下,計算結果很快形成一種千變萬化的巨大決策樹。在此之後,深藍會沿著樹狀結構返回原點,觀察哪些棋步最可能帶來積極的結果。然而,何謂“積極的結果”?事實上,眾多優秀的國際象棋棋手為深藍精心設計出了國際象棋策略,旨在幫助其作出更好的決策——舉例來說,是決定保護國王,還是在盤面的其它位置獲得優勢?他們針對此類目的構建起特定的“評估算法”,從而比較不同盤面位置的優勢或劣勢權重(IBM公司將專家們的象棋策略以硬編碼形式引入該評估函數)。最終,深藍會據此選擇出經過精心計算的棋步。在接下來的回合中,整個過程再次重複。

這意味著,深藍在每一步之前都會考量數百萬個理論位置。因此,深藍最令人印象深刻的表現並不在於人工智能軟體層面,而體現在其硬體之上——IBM公司宣稱,深藍是當時市場上最為強大的電腦之一。其每秒能夠計算2億個盤面位置。

現在讓我們回到圍棋方面。圍棋顯然更為開放,因此如果在這裡重複深藍的戰略,將根本無法獲得理想效果。由於每個棋步都擁有過多可選擇的位置,因此電腦根本無法涵蓋這麽多潛在的可能性。舉例來說,在國際象棋的開局當中,只有20種可能的下法; 但在圍棋方面,先手選手將擁有361個可能的落子點——而且這種選擇範圍在整個對弈過程中一直非常廣泛。

AlphaGo對局李世石兩周年紀:AI程式攻克圍棋的算法秘密

這就是所謂“巨大搜索太空”。而且在圍棋當中,判斷某個特定盤面位置的有利或不利權重並沒那麽容易——在官子階段,雙方甚至還需要再排布一陣才能最終確定誰才是勝利者。但有沒有一種神奇的方法能夠讓電腦在圍棋領域有所建樹?答案是肯定的,深度學習能夠完成這項艱巨的任務!

因此在本次研究當中,DeepMind方面利用神經網絡來完成以下兩項任務。他們訓練了一套“策略神經網絡(policy neural network)”以決定哪些才是特定盤面位置當中最為明智的選項(這類似於遵循某種直觀策略選擇移動位置)。此外,他們還訓練了一套“估值神經網絡(value neural network)”以估算特定盤面布局對選手的有利程度(或者說,下在這個位置對贏得遊戲這一目標的實際影響)。他們首先使用人類棋譜對這些神經網絡進行訓練(也就是最傳統但也非常有效的監督式學習方法)。經歷了這樣的訓練,我們的人工智能已經可以在一定程度上模仿人類的下棋方式——這時的它,就像一位菜鳥級人類選手。而後,為了進一步訓練神經網絡,DeepMind方面讓AI與自己進行數百萬次對弈(也就是“強化學習”的部分)。如此一來,憑借著更為充分的練習,AI的棋力得到了極大提升。

憑借這兩套網絡,DeepMind的人工智能方案就足以擁有等同於此前最先進的圍棋程式的棋藝水準。二者的區別在於,原有程式使用了此前更為流行的預置遊戲算法,即“蒙特卡洛樹搜索(Monte Carlo Tree Search,簡稱MCTS)”,我們將在稍後具體進行介紹。

不過很明顯,到這裡我們還沒有談到真正的核心。DeepMind的人工智能方案絕不僅僅依賴於策略與估值網絡——其並非利用這兩套網絡來替代蒙特卡洛樹搜索; 相反,其使用神經網絡以進一步提升MCTS算法的成效。實際結果也確實令人滿意——MCTS的表現達到了超人的高度。這種經過改進的MCTS變種正是“AlphaGo”,其成功擊敗了李世石,並成為人工智能發展歷史上最大的突破之一。

AlphaGo對局李世石兩周年紀:AI程式攻克圍棋的算法秘密

下面我們真正開始對論文內容的理解,首先是其中使用的遊戲策略——蒙特卡洛樹搜索算法。其實說到這裡,大家對其已經擁有了基本認識,足以順利理解本篇文章的內容。但如果你希望深入了解更多細節,請參閱以下優秀的影片與部落格文章:

1. Udacity提供的系列短片(https://www.youtube.com/watch?v=onBYsen2_eA)

2. Jeff Bradberry的MCTS解讀 (https://jeffbradberry.com/posts/2015/09/intro-to-monte-carlo-tree-search/)

3. Fullstack Academy提供的MCTS教程(https://www.youtube.com/watch?v=Fbs4lnGLS8M)

下面讓我們回想一下本文的第一段內容。上述提到,深藍電腦是如何在國際象棋的每一步當中構建起包含數以百萬計盤面位置與棋步的決策樹——電腦需要進行模擬、觀察並比較每一種可能的落點——這是一種簡單且非常直接的方法,如果一般的軟體工程師必須要設計出一種棋類程式,那麽他們很可能會選擇類似的解決方案。

但讓我們想想,人類是怎樣下棋的?假設目前您身處比賽中的特定階段。根據遊戲規則,你可以作出十幾種不同的選擇——在此處移動棋子或者在那裡移動皇后等等。然而,你真的會在腦袋裡列出所有能走的棋步,並從這份長長的清單中作出選擇嗎?不不,你會“直觀地”將可行範圍縮小至少數幾種關鍵性棋步(這裡假定您提出了3種明智的棋步),而後思考如果選擇其中某一種,那麽棋盤上的局勢將發生怎樣的轉變。對於其中每一種棋步,你可能需要15到20秒的時間進行考量——但請注意,在這15秒內,我們並不是在非常精確地推衍接下來的交鋒與變化。事實上,人類往往會在未經太多思考的情況下“拋出”一些由直覺引導的選擇結果(當然,優秀的選手會比普通選手想得更遠更深)。之所以這樣做,是因為你的時間有限,而且無法準確預測你的對手會勾勒出怎樣的後續應對策略。因此,你只能讓直覺引導自己。我將這一部分思考過程稱為“鋪展”,請大家在後文中注意這一點。

在完成了對幾種明智棋步的“鋪展”之後,你最終決定放棄這種令人頭痛的思考,直接下出你認為最科學的一步。

在此之後,對手也會作出對應的回應。這一步可能早在你的預料當中,這意味著你對於下一步要做的事情更具信心——換言之,不必耗費太多時間進行後續“鋪展”。或者,也可能你的對手下出了一手妙招,導致你被迫回防並不得不更謹慎地思考下一步選擇。

遊戲就這樣持續進行,而隨著局勢的推進,你將能夠更輕鬆地預測每步棋的結果,鋪展耗時也將相應縮短。

之所以說了這麽多,是希望以較為淺顯的方式為大家講述MCTS算法的作用——它通過反覆構建棋步與位置“搜索樹”以模擬上述思考過程。但其創新之處在於,MCTS算法不會在每個位置(與深藍有所不同)都進行潛在棋步推衍; 相反,其會更智能地選擇一小組合理棋步並加以探索。在探索過程中,它會“鋪展”這些棋步引發的局勢變化,並根據計算出的結果對其加以比較。

(好了,只要理解了以上內容,本文的閱讀就算基本達標。)

現在,讓我們回到論文本身。圍棋是一種“完美資訊遊戲”。也就是說,從理論層面講,無論您身處這類遊戲的哪個階段(即使剛剛走出一、兩步),大家都有可能準確猜出最終誰輸誰贏(假定兩位選手都會以‘完美’的方式下完整盤)。我不知道是誰提出了這項基本理論,但作為本次研究項目的前提性假設,其確實非常重要。

換句話來說,在遊戲狀態下,我們將可通過一條函數v*(s)來預測最終結果——例如你贏得這盤對弈的概率,區間為0到1。DeepMind的研究人員將其稱為“最優估值函數”。由於某些盤面位置比其它盤面位置更有可能帶來獲勝結果,因此前者可能比其它位置擁有“更高估值”。讓我再強調一次,估值=贏得比賽的0到1間概率值。

但先別急——假設一位名叫Foma的女孩坐在您的身邊,在每下一步棋時,她都會告訴您這次決定會導致您勝利還是失敗。“你贏了……你辦理了……不,還是辦理了……”我認為這樣的提示對您的棋步選擇並沒有多大幫助,而且非常煩人。相反,真正能夠幫得上忙的其實應該是勾勒出所有可能的棋步樹,以及這些棋步將會引發的狀態——而後,Foma會告訴你在整個樹狀結構中,哪些狀態會將你推向勝利,而哪些會招致失敗。突然之間,Foma就成了您的完美夥伴——而非討厭的插嘴者。在這裡,Foma將作為您的最優估值函數v*(s)。此前,人們一直認為像圍棋這樣的遊戲,不可能擁有Foma這樣的準確估值函數——因為其中存在著太多不確定性。

然而,即使您真的擁有了Foma,她對所有可能盤面位置的估算在現實對弈當中恐怕也無法奏效。因為在國際象棋或圍棋這樣的遊戲當中,正如之前所提到,即使是想要預測七到八步之後的整體局勢,過多的可能性選擇也會令Foma需要耗費大量時間才能得出分析結果。

也就是說,單憑Foma還遠遠不夠。大家還需要進一步縮小明智棋步的具體範圍,並據此推衍接下來的局勢走向。那麽我們的程式該如何做到這一點?Lusha在這裡閃亮登場。Lusha是一位擁有相當技巧的國際象棋選手加熱心人,她曾花費數十年時間觀看國際象棋大師賽。她可以觀看你的盤面位置,快速思考您所能做出的全部合理選擇,並告訴你專業選手作出各種判斷的可能性。因此,如果您在某一特定時間點上擁有50種可能的棋步選項,Lusha會告訴你職業棋手選擇每種選項的具體概率。當然,其中一些明智的棋步會擁有更高的概率,而其它無意義的棋步則概率極低。她就是你的策略函數,p(a\s)。對於給定狀態s,她能夠為您提供專業選手可能作出的全部選擇的對應概率。

接下來,你可以在Lusha的幫助下尋找更為合理的棋步選項,而Foma則會告訴我們這些棋步對對弈結果的實際影響。在這種情況下,大家可以選擇由Foma與Lusha協商給出落子建議,或者也可以先由Lusha提供建議,再由Foma對結果作出評估。接下來,挑選其中一些選項進行後續影響分析,再由Foma與Lusha繼續進行預測指導——通過這種方式,我們將能夠更為高效地掌握盤面局勢走向。而這,正是所謂“減少搜索太空”的實際意義所在。利用估值函數(Foma)預測結果,利用策略函數(Lusha)提供棋藝層面的概率取捨以縮小值得進一步探索的落子範圍。這套體系就是所謂“蒙特卡洛鋪展(Monte Carlo rollouts)”。接下來,當重新回到當前棋步時,你將能夠得到各種選項所對應的平均估值結論,並據此找到最適合的落子位置。不過到這裡,其在圍棋水準方面仍然表現不佳——因為這兩種函數的實際指導能力還比較孱弱。

不過沒關係。

AlphaGo對局李世石兩周年紀:AI程式攻克圍棋的算法秘密

首先進行具體解釋。在MCTS當中,起步階段的Foma與Lusha的功能還不夠精熟。但對弈數量越多,二者在預測可靠結果與落子位置方面就越強大。論文指出,“縮小高可能性棋步的具體範圍”其實是種較為複雜的表達,“Lusha實際上是通過提供專業棋手的落子概率幫助縮小需要考量的選項。以往的工作主要利用這種技術在策略函數較為簡單的情況下,提供強大且成熟的AI選手解決方案。

AlphaGo對局李世石兩周年紀:AI程式攻克圍棋的算法秘密

是的,卷積神經網絡非常適合影像處理類任務。而且由於神經網絡需要特定輸入內容並給出對應的輸出結果,所以其在本質上其實也相當於一條函數。這意味著大家可以利用神經網絡來充當一種高度複雜的函數。從這個思路出發,大家可以將其傳遞一份盤面位置影像,並由神經網絡自行判斷當前局勢。如此一來,創建出的神經網絡將擁有非常準確的策略與估值能力。

AlphaGo對局李世石兩周年紀:AI程式攻克圍棋的算法秘密

下面,我們將討論Foma與Luha的具體訓練方式。為了訓練策略網絡(負責預測專業棋手的落子位置判斷),我們只需要將人類對弈棋譜作為素材,並利用其進行傳統的監督式學習即可。

另外,我們還希望能夠構建起一套略有不同的策略網絡版本; 其應該更小巧且速度更快。可以想象,如果Lusha的經驗非常豐富,那麽其用於處理每個位置的時間也將相應延長。在這種情況下,雖然她能夠更好地縮小合理落子範圍,但由於整個過程會不斷重複,因此耗費時間可能會過長。所以,我們需要為這項工作訓練出一套速度更快的策略網絡(我們將其稱為……Lusha的弟弟,Jerry?姑且就這麽稱呼吧)。接下來,一旦利用人類選手的數據訓練出滿足需求的策略網絡,我們就可以讓Lusha在圍棋棋盤上進行自我對抗以獲得更多練習機會。這正是強化學習的體現——構建起更強大的策略網絡版本。

此後,我們需要訓練Foma進行估值:確定獲勝的概率。人工智能將在模擬環境當中反覆進行自我練習,每一次觀察其最終綶,並從錯誤當中學習到更好、更先進的經驗。

受到篇幅所限,這裡我就不具體介紹網絡的訓練方式了。您可以在本文末尾提供的論文鏈接中(參閱‘方法’部分)了解更多細節資訊。事實上,這篇論文的主要目的並非說明研究人員如何在這些神經網絡之上進行強化學習。DeepMind在之前發表的一篇文章中,已經談到過他們如何利用強化學習技術教會AI掌握雅達利遊戲。因此在本文當中,我只在內容摘要部分稍微提到一點相關內容。這裡再次強調,AlphaGo的最大創新在於DeepMind研究人員們利用強化學習加神經網絡來改進已經廣泛流行的遊戲算法MCTS。強化學習確實是一種很酷的工具,研究人員們在常規監督式訓練之後利用強化學習實現策略與估值函數神經網絡的微調。但是,這篇研究論文的主要作用在於證明這款工具的功能多樣性與優秀性,而非教導大家如何實際使用。

好了,現在大家對AlphaGo應該已經建立起比較完整的印象。下面,我們會進一步深入探討之前提到的各個議題。當然,其中不可避免要涉及一些看似“危險”的數學公式及表達式,但相信我,它們都很簡單(我會作出詳盡解釋)。因此,請放鬆心態。

AlphaGo對局李世石兩周年紀:AI程式攻克圍棋的算法秘密

AlphaGo對局李世石兩周年紀:AI程式攻克圍棋的算法秘密

所以,第一步就是訓練我們的策略神經網絡(Lusha),其負責預測專業棋手可能作出的判斷。神經網絡的目標是讓人工智能發揮類似於人類專家的作用。這套卷積神經網絡(正如之前提到,這種特殊的神經網絡非常擅長影像處理)採用電路板式布局以簡化影像內容。我們可以向該網絡架構的各個層中添加“整流器非線性”,其將賦予整體網絡學習更複雜技能的能力。如果大家以前曾經訓練過神經網絡,可能對“ReLU”層不會感到陌生。這裡我們同樣使用ReLU層。

這裡的訓練數據以隨機盤面位置對的形式存在,而標簽則為人類所作出的落子選擇。這部分訓練採用常規的監督式學習。

在這裡,DeepMind使用了“隨機梯度ASCENT”。這是一種反向傳播算法。通過這種方式,我們希望最大程度發揮獎勵函數的作用。獎勵函數代表的是人類專家作出不同行動預測的概率; 我們的目標則是盡可能提升這一概率。但是,在實際網絡訓練當中,我們一般只需要讓丟失函數盡可能降低即可——這在實質上是縮小預測結果與實際標簽之間的誤差/差異,也就是所謂梯度下降。在研究論文的實際實現部分,他們確實使用了常規的梯度下降方法。大家可以輕鬆找到與獎勵函數相對的丟失函數,並通過盡可能降低後者最大程度提升前者。

AlphaGo對局李世石兩周年紀:AI程式攻克圍棋的算法秘密

這套策略網絡擁有13層,我們將其稱為“SL策略(SL policy)”網絡(SL代表監督式學習)。其使用的數據來自某個高人氣網站,有數百萬用戶在這裡進行圍棋對弈。那麽,SL策略網絡的實際表現如何?

首先,其圍棋水準要高於其他研究人員的早期開發成果。至於“鋪展策略”方面,大家可能還記得之前我們曾提到,研究人員們訓練出一套速度更快的Lusha版本——我們稱其為Jerry。在這裡,Jerry負責發揮作用。如大家所看到,Jerry的準確度只有Lusha的一半,但速度卻快了數千倍!當我們應用MCTS算法時,Jerry將幫助我們更快地完成對後續局勢變化的模擬。

要理解下一節的內容,大家可以不了解強化學習,但需要認同一項前提——即我所作出的闡述真實有效。如果您希望探究更多細節並加以嘗試,可能需要首先閱讀一些關於強化學習的背景資訊。

AlphaGo對局李世石兩周年紀:AI程式攻克圍棋的算法秘密

一旦擁有了這套SL網絡,接下來要做的就是利用人類選手的判斷數據以監督式方式對其進行訓練。在此之後,就是由其自我對弈以不斷磨練判斷能力。具體實現方法也很簡單——選擇SL策略網絡,將其保存在一個檔案中,而後再複製一份副本。

然後,你可以利用強化學習對其進行微調。如此一來,這套網絡就能夠自我對抗並從結果中學習經驗。

不過這樣的訓練方式其實存在一個問題。

如果其只在練習中對抗同一個對手,且該對手也一直貫穿訓練始終,那麽可能無法獲得新的學習經驗。換言之,該網絡所學到的只是如何擊敗對方,而非真正掌握圍棋的奧秘。沒錯,這就是過度擬合問題:你在對抗某一特定對手時表現出色,但卻未必擁有對付各類選手的能力。那麽,我們該如何解決這個問題?

答案很簡單,當我們對一套神經網絡進行微調時,其就會變成另一個風格上略有不同的選手。如此一來,我們可以將各個版本的神經網絡保存在一份“選手”列表當中,並確保每位選手的表現都有所區別。很好,在接下來的神經網絡訓練過程中,我們可以從列表中隨機選擇不同的版本作為對抗對象。它們雖然源自同一套神經網絡,但表現卻略有區別。而且訓練得越多,選手的版本也就越多。問題就此解決!

在這樣的訓練過程中,惟一指導訓練過程的只有最終目標 ——即贏得比賽。到這裡,我們已經不再需要對網絡進行針對性訓練,例如捕捉盤面上的更多位置等。我們只需要為其提供所有可能的合理選項,並下面目標“你必須獲勝”。也正因為如此,強化學習才如此強大——其能夠被用於訓練任何遊戲策略或估值網絡,而絕不僅限於圍棋。

AlphaGo對局李世石兩周年紀:AI程式攻克圍棋的算法秘密

到這裡,DeepMind的研究人員們測試了這套RL策略網絡的準確性——不使用任何MCTS算法。之前我們曾經提到,這套網絡能夠直接獲取盤面位置並思考專業棋手的判斷概率。到這裡,它已經能夠獨立進行對弈了。結果是,強化學習微調後的網絡戰勝了僅利用人類棋譜進行訓練的監督學習網絡。不僅如此,它還能夠戰勝其它強大的圍棋程式。

必須強調的是,即使是在訓練這套強化學習策略網絡之前,監督學習策略網絡也已經擁有了超越現有技術的對弈水準——而如今我們又更進一步!更重要的是,我們甚至不需要使用估值網絡這類其它輔助方案。

AlphaGo對局李世石兩周年紀:AI程式攻克圍棋的算法秘密

到這裡,我們終於完成了對Lusha的訓練。接下來重新回到Foma這邊,它代表的是最優估值函數v*(s)——即只有兩位選手皆完美執行其預期內的落子判斷時,她才能提供在目前盤面局勢下獲得優勝的可能性。很明顯,為了訓練神經網絡充當我們的估值函數,這裡需要一位完美的對手……遺憾的是,目前我們還沒有這樣一位對手。因此,我們派出了最強大的選手——RL策略網絡。

其會提取當前盤面狀態state_s,而後輸出您贏得本場對弈的概率。每一項遊戲狀態都將充當數據樣本,並以標簽的形式用於注釋遊戲結果。因此,在經過 50次落子之後,我們就獲得了50份估值預測樣本。

AlphaGo對局李世石兩周年紀:AI程式攻克圍棋的算法秘密

但這種作法實際上非常幼稚——畢竟我們不可能也不應該將對弈中的全部50次落子全部添加到數據集當中。

換言之,我們必須認真選擇訓練數據集以避免過度擬合的發生。由於每次落子都會與一個新位置對應,因此圍棋中的每一次落子都非常相似。如果將所有落子選擇的狀態都添加到具有相同標簽的訓練數據當中,那麽其內容將存在大量“重複”,並必然導致過度擬合。為了防止這種情況的發生,我們只能選擇那些更具代表性的遊戲狀態。舉例來說,我們可以隻選擇對弈過程中的五個狀態——而非全部50個狀態——添加到訓練數據集內。DeepMind從3000萬盤不同對弈過程中提取了3000萬種狀態,從而減少重複數據的出現可能性。事實證明,這種作法效果極佳!

現在,我們談談概念: 我們可以通過兩種方法評估盤面位置的價值。第一是選擇最佳估值函數(即之前訓練完成的函數)。另一種則是使用現有策略(Lusha)直接推導盤面局勢,並預測本次落子帶來的最終結果。很明顯,真正的對弈很少會完全按照我們的計劃推進。但DeepMind仍然比較了這兩種方法的實際效果。此外,大家也可以將這兩種選項混合使用。稍後,我們將了解這一“混合參數”,請各位記住這個重要概念。

在這裡,我們的一套神經網絡會嘗試給出最近似的最優估值函數,其效果甚至優於經過數千次模擬而得出的鋪展策略!Foma在這裡的表現真的超讚。在另一方面,DeepMind方面也嘗試使用了準確度翻倍但速度極慢的Lusha RL策略,其需要進行成千上萬次模擬以得出結論——最終效果略好於Foma。但也只是略好,而速度卻慢了太多。因此,Foma在這場比拚中勝出,她證明自己擁有著不可替代的價值。

AlphaGo對局李世石兩周年紀:AI程式攻克圍棋的算法秘密

現在,我們已經完成了策略與估值函數的訓練,接下來可以將其與MCTS結合起來,從而帶來我們的前任世界冠軍、大師中的大量、一個世代的突破、體重268磅的……Alphaaaa GO!

在本節中,大家應該對MCTS算法的工作原理擁有更為深入的理解。請別擔心,迄今為止提到的全部內容應該足以支持您順利掌握相關內容。惟一需要注意的是我們如何使用策略概率與估值方法。我們在鋪展過程中將二者結合在一起,從而縮小每次落子時需要探索的具體範圍。Q(s,a)表示估值函數,u(s,a)則代表該位置的已保存概率。下面我將具體作出解釋。

另外需要注意的是,策略網絡是使用監督學習來預測專業棋手落子判斷的。其不僅能夠提供概率最高的落子選項,同時也會提供各個選項的具體概率。這一概率可被存儲在各個落子判斷當中。在這裡,DeepMind方面將其稱為“先驗概率”,並利用其選擇有必要進行探索的落子選項。基本上,要決定是否需要對某一特定落子選項進行探索,我們需要考慮以下兩點:首先,通過這步棋,我們有多大概率獲勝?是的,我們已經擁有了能夠回答這個問題的“估值網絡”。第二個問題是,專業棋手有多大概率會考慮這一棋步?(如果專業棋手不太可能考慮這步棋,那麽我們為什麽要浪費時間進行探索?這部分結論由策略網絡負責提供。)

接下來,讓我們聊聊“混合參數”。如前文所述,為了評估各個盤面位置,我們有兩種選擇:其一,直接利用一直用於評估盤面狀態的估值網絡。第二,我們也可以使用現有策略網絡快速推導對弈情況(假定對方選手也采取符合預測的下法),從而判斷我們是輸還是贏。一般來講,估值函數的效果要比常規鋪展更好。在這裡,將二者結合將能夠提供每項預測的權重估值,例如五五開、四六開等等。如果大家以百分比形式對估值X進行處理,則另一項就是(100-X)%。這就是混合參數的意義所在。後文中將對其實際效果進行說明。

AlphaGo對局李世石兩周年紀:AI程式攻克圍棋的算法秘密

在每一次鋪展之後,大家都可以利用在模擬當中獲得的任何資訊對搜索樹進行更新,從而進一步提升未來模擬的明智度。在所有模擬結束之後,您從中選擇最佳落子選項即可。

AlphaGo對局李世石兩周年紀:AI程式攻克圍棋的算法秘密

下面來看有趣的結論!

大家應該還記得,RL微調策略神經網絡擁有比SL人力訓練策略神經網絡更好的判斷效果。但在將其添加至AlphaGo的MCTS算法中時,使用人工訓練的神經網絡反過來超越了微調神經網絡。與此同時,在估值函數(可以理解成以無限趨近方式提供完美判斷)方面,利用RL策略進行Foma訓練能夠帶來超越使用SL策略的實際效果。

AlphaGo對局李世石兩周年紀:AI程式攻克圍棋的算法秘密

“執行上述評估需要耗費大量計算資源,我們必須拿出壓箱底的硬貨才能搞定這些該死的程式。”

AlphaGo對局李世石兩周年紀:AI程式攻克圍棋的算法秘密

AlphaGo對局李世石兩周年紀:AI程式攻克圍棋的算法秘密

但DeepMind的言下之意其實是……

AlphaGo對局李世石兩周年紀:AI程式攻克圍棋的算法秘密

“吼吼,跟我們的程式相比,以前的那些圍棋程式簡直就是唐氏兒童級別。”

AlphaGo對局李世石兩周年紀:AI程式攻克圍棋的算法秘密

這裡再說回“混合參數(mixing parameter)”。在評估位置時,對估值函數及鋪展二者的重視程度要高於其中任意一者。其余部分是DeepMind方面的深入解釋,可以看到其中昭示了一項有趣的結論!

AlphaGo對局李世石兩周年紀:AI程式攻克圍棋的算法秘密

AlphaGo對局李世石兩周年紀:AI程式攻克圍棋的算法秘密

請再讀一次標有紅色下劃線的句子。相信大家已經能夠理解,這句話基本就是對整個研究項目的全面總結。

AlphaGo對局李世石兩周年紀:AI程式攻克圍棋的算法秘密

來源:Medium

編譯:科技行者

獲得更多的PTT最新消息
按讚加入粉絲團