每日最新頭條.有趣資訊

天壤團隊:深度強化學習如何落地圍棋等多個領域

集體合影集體合影

  文章來源:雷鋒網

  5月26日,又一位世界圍棋冠軍敗給了AI。不過與其對戰的不是接連擊敗李世石和柯潔的AlphaGo,而是國內創業公司天壤智能的圍棋AI。

  在杭州雲棲小鎮的2050大會上,天壤智能舉辦了一場“天壤AI圍棋論道世界冠軍人機表演賽”,天壤智能的AI圍棋執白子對戰韓國圍棋第一人、獲得三次世界冠軍的樸廷桓,激戰三小時後,最終樸廷桓認負。

  據天壤智能介紹,圍棋AI是其人工智能平台的實驗性項目,在人工智能圍棋對弈上,天壤圍棋已經進入除了AlphaGo的圍棋人工智能第一集團。目前,通過以AI圍棋積累的深度強化學習技術,天壤智能正在搭建通用人工智能平台,為行銷、交通、金融等領域提供高效精準的AI服務。

  在2050大會現場,雷鋒網與天壤智能CEO薛貴榮、CTO張雷和COO韓定一進行了深度交流,除了AI圍棋外,深入了解了其在AI廣告行銷的落地場景。

天壤團隊與世界圍棋冠軍樸廷桓的合影天壤團隊與世界圍棋冠軍樸廷桓的合影

  (2016年,薛貴榮(右六)創辦了天壤智能,在此前,薛貴榮是阿里巴巴旗下阿里媽媽大數據中心負責人、阿里媽媽首席數據科學家,負責研發了阿里搜索引擎(神馬搜索)、數據管理平台、行銷技術平台等。COO韓定一(右二)是原阿里巴巴旗下阿里媽媽鑽石展位、達摩技術負責人,在阿里任職期間先後負責研發了全網用戶行為分析平台、雲搜索、鑽石展位、達摩平台。CTO張雷(右三)曾在百度搜索廣告部門任主任架構師,曾任IBM中國研究院高級研究員且長官了IBM DeepQA開放問答系統中國團隊的技術工作。)

  深耕AI圍棋,掌握核心技術

  2016年,薛貴榮從阿里離職,創辦天壤智能,主要的業務是精準廣告行銷。當時正值AlphaGo大殺四方,AlphaGo背後的深度強化學習技術吸引了天壤的注意,在天壤看來除了圍棋外,深度強化學習還能有更多的應用領域。

  張雷告訴雷鋒網,現在的AI主要分為兩類,一是感知類的AI,例如人臉識別、語音識別,還有一種是在感知的基礎上做決策,通過深度強化學習技術來做。天壤智能成立時,感知AI領域已經有不少做得不錯的公司,他們就想做更往前一步的決策AI,圍棋就是最好的例子,需要在感知的基礎上去做決策。

  天壤智能一頭扎入了AlphaGo論文中,薛貴榮談到,很多公司可能就是看看論文直接學習技術,但是他覺得不親自做一遍根本就不知道這個技術可能還有其他什麽解決方法,不知道如何去將這個技術調整應用在別的領域。因此,天壤從零開始開發天壤智能AI圍棋。

  與同樣在探索深度強化學習技術的DeepMind等科技巨頭相比,天壤作為一家成立僅兩年的創業公司,在算力上完全沒有與科技巨頭媲美的資源,而深度強化學習又是一項對計算資源消耗極大的技術,天壤從系統、策略上進行了獨有的創新。

  據介紹,在系統維度,天壤基於Berkeley Ray搭建了大規模分布式深度強化學習平台天雲,實現了大規模GPU上的模擬、訓練、模型迭代更新、參數自動調優等。從策略上,天壤通過創新型的伴隨訓練的方式,搭建漸進式的加深網絡,先從小網絡開始訓練模型,再逐步切換到更大的網絡。在更快的迭代速度下,實現非常深的神經網絡訓練。薛貴榮談到,“在系統和策略上的技術突破,是天壤訓練出能夠擊敗世界圍棋冠軍、躋身全球圍棋AI第一集團的秘訣”。

  當然,在AlphaGo之後湧現出的人工智能圍棋程式還包括:日本的DeepZenGo、騰訊的絕藝、神算子、先知圍棋等。這些人工智能圍棋程式也曾多次一較高下:2017年8月,在第一屆“中信證券”杯世界智能圍棋公開賽上,天壤智能與騰訊絕藝、日本DeepZenGo和台灣的CGI一起殺入四強。2017年12月,在第一屆圍棋AI龍星戰中,天壤獲得第三名,排在絕藝、DeepZenGo之後。而目前,據薛貴榮介紹,天壤智能AI圍棋已經僅次於AlphaGo,就在即將到來的六月,還會與騰訊絕藝一較高下。

  人工智能圍棋程式令人向往,除了世界冠軍外,不少人也希望能夠有機會與其較量,但是由於人工智能圍棋程式需要大量的硬體、算力支持,一次人機對戰的成本就很高。而在此次與樸廷桓的對戰中,天壤智能隻使用了英特爾通用CPU平台,而不是通常的GPU平台,據稱,英特爾為此次人機圍棋對戰提供了有力的技術支持。

  薛貴榮告訴雷鋒網,目前天壤智能將圍棋AI開放給公眾,在網站上任何人都可以跟職業九段等級的圍棋AI進行對弈。天壤智能也與棋院達成合作,用圍棋AI給棋手陪練。

  AI賦能廣告投放決策

  通過圍棋AI,天壤掌握了深度強化學習,並且將其落地不同的應用場景。第一個場景就是他們團隊最熟悉的廣告行銷領域。在天壤看來,行銷投放與圍棋對弈類似,本質是動態環境複雜組合太空的實時決策。

  在互聯網時代,廣告主投放網絡廣告的主要手段是程式化廣告平台(包括DSP、SSP等),騰訊的廣點通、阿里的鑽石展位是典型的程式化廣告平台。天壤創始人兼CEO薛貴榮曾負責阿里媽媽的大數據行銷技術平台,COO韓定一是阿里媽媽鑽石展位、達摩盤技術負責人,他們對程式化廣告有十分深入的了解。

  韓定一告訴雷鋒網(公眾號:雷鋒網),程式化廣告實現了一定程度的自動化和精準的廣告投放,但是很多事情依然需要依靠人力,例如媒介投放人員需要在上千的分類標簽中選定自己的目標對象、需要選擇投放的地域時段、需要給出廣告競價,此外,還需要根據每一次投放的數據反饋來調整下一次的投放策略,分析如何投放才能提升效果。在天壤看來,雖然現在互聯網產生了眾多的數據,但是廣告主和廣告投放人員依然無法有效地利用數據。

  天壤利用深度強化學習技術,在程式化廣告平台的基礎上推出了“天壤行銷大腦”,它在客戶的商業需求和廣告平台之間建立了一個商業邏輯。利用“行銷大腦”,廣告主只需要進行簡單的操作,告訴平台媒介投放的基本商業邏輯:活動是針對新客戶還是老客戶、希望吸引多少量、投入的資金多少。然後,“行銷大腦”能根據大數據自動為客戶去挑選目標人群、制定投放地域時段、廣告競價,然後不斷實時調整以達到最好的投放效果。

  在2017年雙11期間,天壤智能的“行銷大腦”就已經投入使用。雙11活動期間,天鑽總共幫助商家完成7213萬的鑽展投放預算,促成雙11當天總成交13.58億。其效果也有明顯提升, 商戶的獲客成本下降56%、ROI平均提升78%。

  據介紹,AI機器人為每個商家每天提供決策34560次,平均每2.5秒一次,同時每個商家每天進行2000次的調整,平均每43.2秒一次。在程式化廣告投放中,每一次決策都將引發對最終獲得行銷結果的影響。加上競價環境的變化,需要不斷調整才能獲得最優,隨著人工智能技術的發展,機器決策將成為更適合行銷投放的一種方式。

  在韓定一看來,目前廣告投放人員的重複性工作很多也很機械,這些投放和數據分析的工作交給AI去做可以解放廣告投放人員,他們可以去負責更多與客戶需求、廣告創意相關的工作,進一步提升行銷效果。

  我們離通用人工智能還有多遠?

  AI圍棋、AI廣告行銷都是天壤將深度強化學習技術落地的應用場景,天壤還在探索AI在交通信號燈控制、金融量化投資上的應用,而他們的長遠規劃是打造人工智能通用平台,以AI技術賦能更多的行業和場景。

  近兩年,AI發展迅猛,正在改變各個傳統行業。然而目前的AI技術大多是在電腦視覺、自然語言處理、語音技術的單點突破,這些感知類的技術的進步建立在大量的人工標注數據之上,而當很多場景需要AI去做決策的時候,並沒有這樣的數據可以使用。

  通用人工智能主要有兩個特點,一是端對端(end-to-end)的學習,二是任務自適應, 無需人類調參而勝任不同的任務。DeepMind的AlphaGo讓大家看到了深度強化學習技術打造通用人工智能平台的希望。

  張雷告訴雷鋒網,“現在的深度強化學習技術的狀態跟6年前深度學習很像。2012的時候,深度學習技術剛剛成熟,使得影像識別準確率突然取得了一個很大的提高,很多人投入其中,準確率越做越高。目前,深度強化學習技術應用到圍棋領域,擊敗人類冠軍是一個標誌性的突破,吸引很多人來做,未來應該會有更多的突破。”

(責編:樊璐璐)
獲得更多的PTT最新消息
按讚加入粉絲團