|
新智元2019新年寄語 2018年人工智能成為重塑世界格局的關鍵。谷歌BERT模型刷新多項自然語言處理紀錄,DeepMind則用星際爭霸II對局再次引爆機器智能無限可能。阿里與華為分別推出AI芯片,作為底層支撐的計算體系結構也將邁入黃金十年發(fā)展期。 新智元2018年實現全球超過50萬核心產業(yè)用戶互聯。2019新春,中國人工智能將迎來全新的競爭挑戰(zhàn)與生態(tài)建設契機,新智元邀你與全球人工智能學術、產業(yè)精英一起,以開放的胸懷和堅毅的決心,成就AI新世界! ——新智元創(chuàng)始人兼CEO 楊靜 新智元報道 來源:arxiv 編輯:大明,文強 【新智元導讀】深度強化學習、多智體強化學習以及博弈論,是DeepMind戰(zhàn)勝職業(yè)星際II玩家的智能體AlphaStar的重要技術。倫敦帝國大學和NYU研究人員則從進化計算的角度指出,AlphaStar使用的競爭協同進化算法策略被遠遠低估。DeepMind首次戰(zhàn)勝星際II職業(yè)玩家的AI——AlphaStar,正如新智元創(chuàng)始人兼CEO楊靜女士在《新智元2019年寄語》中所說的那樣,引爆機器智能無限可能。 AlphaStar是一項壯舉,是建立在DeepMind及其他研究人員多年的研究和工程基礎之上,尤其是深度強化學習(DRL)、多智體強化學習(MARL)和博弈論。 雖然在官方博文中,DeepMind也提到了進化算法(Evolutionary Algorithm, EA),但這顯然并非其重點。不過,倫敦帝國學院的Kai Arulkumaran等人,反過來從進化算法的角度來看AlphaStar,希望對深度強化學習領域和進化計算的研究者都帶來啟發(fā)。 進化計算和深度學習并非對立的兩個陣營。 事實上,Arulkumaran等人最新在Arxiv上貼出的論文《從進化計算角度看AlphaStar》(AlphaStar: An Evolutionary Computation Perspective),也確實提出了很多新的問題。 例如,在DeepMind提出的快速調參算法PBT中,用Baldwinian進化算法代替拉馬克(Lamarckian)進化,是否能得到元學習星際II智能體? Arulkumaran本人也在Twitter表示,這篇文章是對一系列概念的高級概括,還需要進一步探索,他們在寫作時有意識地省略了演化計算和博弈論之間重疊的部分。 同時,他也指出,不能認為AlphaStar僅僅只是一個演化算法,AlphaStar的混合性質有些類似于AlphaGo atm?!癉eepMind官方博文顯示了從IL階段MMR的提升,這一點看起來很重要,但哪些細節(jié)是最重要的,我們目前還不知道?!?/span> 以下是新智元對文章的編譯。 2019年1月,DeepMind向世界展示了AlphaStar——第一個在星際爭霸II游戲中擊敗職業(yè)玩家的人工智能(AI)系統,它代表了人工智能技術進步的一個里程碑。 AlphaStar涉及人工智能研究的許多領域,包括深度學習,強化學習,博弈論和進化計算等(EC)。 在本文中,我們主要通過進化計算的角度來分析AlphaStar,為審視該系統提供一個新的視角,并將其與AI領域的許多概念關聯起來。我們重點介紹其中一些最有趣的方面:拉馬克進化、協同競爭進化和質量多樣性。希望通過本文,在更廣泛的進化計算社區(qū)與新誕生的這個重要的AI系統之間架起一座橋梁。
在1997年”深藍“擊敗國際象棋世界冠軍后,人工智能與人類博弈的下一個重要里程碑是出現在2016年,圍棋世界冠軍李世乭被AlphaGo擊敗。國際象棋和圍棋此前都被認為是AI取得進展最困難的領域,可以說,與之相比難度相當的考驗之一就是擊敗星際爭霸(SC)游戲中的大師級玩家。 星際爭霸是一款即時戰(zhàn)略(RTS)游戲?!缎请H1》及其續(xù)作《星際II》都具有幾個特點,使得它甚至比圍棋的挑戰(zhàn)更大。比如只能觀察到戰(zhàn)場的一部分、沒有單一的主導策略、復雜的游戲規(guī)則、快速建模的難度更大,動作空間極大,且復雜多變等。可以說,想實現征服《星際爭霸》的目標,一點也不比圍棋上的突破來得容易。 想實現征服《星際爭霸》的目標,一點也不比圍棋上的突破來得容易。圖片來源:Jesus Rodriguez, The Science Behind AlphaStar 最近,DeepMind推出的AlphaStar向著實現這個目標邁出了重要一步,AlphaStar是一個基于神經網絡的AI系統,在2018年12月擊敗了專業(yè)的SC II玩家。 該系統與其前身AlphaGo一樣,最初使用模仿學習來模仿人類的游戲行為,然后通過強化學習(RL)和自我對弈的組合方式進行改進。 算法在這里發(fā)生了分歧,因為AlphaStar利用基于人口的訓練(PBT)來明確地保持一群相互訓練的智能體。這部分訓練過程建立在多智能體強化學習和博弈論視角之上,但人口的概念是進化計算的核心,因此我們也可以通過這個視角來考察AlphaStar。 目前,訓練神經網絡參數的最流行的方法是反向傳播(BP)。但是,有許多方法可以調整其超參數,包括進化算法。 其中一種方法是使用模因算法(MA),這個算法中,進化作為外部優(yōu)化算法運行,并且各個解決方案可以通過內環(huán)中的其他方式(例如反向傳播)來進行優(yōu)化。在這種特定情況下,模因算法可以將進化算法的探索和全局搜索屬性與反向傳播算法的高效本地搜索的優(yōu)勢結合起來。 AlphaStar的基本架構。來源:DeepMind 在AlphaStar中,用于訓練智能體的基于人口的訓練策略(PBT)是使用拉馬克進化(LE)的模因算法:在內環(huán)中,使用反向傳播連續(xù)訓練神經網絡,而在外環(huán)中,使用幾種選擇方法中的一種來選擇網絡(比如淘汰制錦標賽選擇),用勝者的參數覆蓋敗者的參數,敗者也會收到勝者超參數的“變異”副本。 PBT策略最初是通過一系列監(jiān)督學習和強化學習任務展示的,調整和提升神經網絡的性能。對于具有高度非平穩(wěn)損耗表面的問題,例如深度強化學習問題,這種策略可能是最有效的,因為它可以在運行過程中改變超參數。 AlphaStar vs MaNa,神經網絡如何將觀察到的結果轉換為行動。來源:DeepMind
由于單個網絡可能需要高達數G的內存,或需要訓練長達幾個小時,因此可擴展性是PBT的關鍵。因此,PBT既是異步的,又是分布式的。與使用靜態(tài)超參數運行許多實驗不同,使用相同數量的硬件,利用PBT只需要很少的開銷——外部循環(huán)可以重用內部循環(huán)的解決方案進行評估,而且數據通信量也比較低。如果考慮非平穩(wěn)超參數因素和對較弱解決方案的優(yōu)先搶占的影響,PBT方案能夠節(jié)省的成本更多。
這些要求的另一個結果是PBT是穩(wěn)定狀態(tài),這一點與分代進化算法不同。由于對異步進化算法和拉馬克進化的自然適應性,穩(wěn)態(tài)進化算法可以允許各個解決方案的優(yōu)化和評估不間斷地進行,從而實現資源效率最大化。 最適合的解決方案能夠存活更長時間,自然地提供了一種精英主義/名人堂模式,但并非最優(yōu)的前代方案也可以保留下來,保持解決方案多樣性。 在對AlphaStar一類游戲智能體進行優(yōu)化時,智能體可以使用自對戰(zhàn)來提升水平。 競爭性協同進化算法(CCEA)可以被視為自我對弈的超集(superset),并非只保留當前解決方案及其前身,而是保持和評估整個解決方案的群體。 與自我對弈一樣,CEA形成了一個自然的教學過程,但也提供了額外的穩(wěn)健性,因為產生的解決方案是基于各種其他解決方案進行評估的。 AlphaStar的訓練過程。來源:DeepMind |
|
|
來自: taotao_2016 > 《計算機》