<meter id="pryje"><nav id="pryje"><delect id="pryje"></delect></nav></meter>

<label id="pryje"></label>

新聞中心

EEPW首頁 > 智能計算 > 業(yè)界動態(tài) > AlphaZero登上《科學(xué)》封面:一個算法通吃三大棋類

AlphaZero登上《科學(xué)》封面:一個算法通吃三大棋類

作者：時間：2018-12-10 來源：澎湃新聞

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

收藏

　　12月7日，谷歌旗下的人工智能實驗室DeepMind研究團隊在《科學(xué)》雜志上發(fā)表封面論文，公布了通用算法AlphaZero和測試數(shù)據(jù)?！犊茖W(xué)》雜志評價稱，通過單一算法就能夠解決多個復(fù)雜問題，是創(chuàng)建通用的機器學(xué)習(xí)系統(tǒng)、解決實際問題的重要一步。該論文的作者包括AlphaGo的核心研發(fā)人員戴維·席爾瓦(David Silver)和DeepMind創(chuàng)始人戴密斯·哈薩比斯(Demis Hassabis)等。

本文引用地址：http://www.ex-cimer.com/article/201812/395417.htm

　　

　　2018年12月7日的《科學(xué)》雜志封面

　　AlphaGo首次為人們所熟知是2016年與圍棋世界冠軍李世石進行圍棋人機大戰(zhàn)，并最終以4比1的總比分獲勝。實際上早在2016年1月谷歌就在國際學(xué)術(shù)期刊《自然》雜志上發(fā)表封面文章，介紹AlphaGo在沒有任何讓子的情況下以5:0完勝歐洲冠軍、職業(yè)圍棋二段樊麾。

　　

　　2016年1月28日《自然》雜志封面

　　2017年10月18日，DeepMind團隊公布了最強版阿爾法圍棋，代號AlphaGo Zero。彼時DeepMind表示，棋類AI的算法主要基于復(fù)雜的枚舉，同時需要人工進行評估，人們在過去幾十年內(nèi)已經(jīng)將這種方法做到極致了。而AlphaGo Zero在圍棋中的超人表現(xiàn)，則是通過與自己下棋練習(xí)出來的。

　　現(xiàn)在DeepMind研究團隊將這種方法推廣到AlphaZero的算法中，AlphaZero最長花了13天“自學(xué)成才”，隨后與世界冠軍級的棋類AI對決：

　　在國際象棋中，AlphaZero在4個小時后首次擊敗了第九季TCEC世界冠軍Stockfish。

　　在日本將棋中，AlphaZero在2小時后擊敗了將棋聯(lián)盟賽世界冠軍Elmo。

　　在圍棋上，AlphaZero經(jīng)過30個小時的鏖戰(zhàn)，擊敗了李世石版AlphaGo。

　　AlphaZero：一個算法通吃三大棋類

　　AlphaGo的前幾代版本，一開始都是與人類棋手的棋譜進行上千盤的訓(xùn)練，學(xué)習(xí)如何下圍棋。到了AlphaGo Zero則跳過了這個步驟，通過自我對弈學(xué)習(xí)下棋，從零學(xué)起。系統(tǒng)從一個對圍棋一無所知的神經(jīng)網(wǎng)絡(luò)開始，將該神經(jīng)網(wǎng)絡(luò)和一個強力搜索算法結(jié)合，自我對弈。在對弈過程中，神經(jīng)網(wǎng)絡(luò)不斷調(diào)整、升級，預(yù)測每一步落子和最終的勝利者。

　　與AlphaGo Zero一樣，從隨機小游戲開始，AlphaZero依靠深度神經(jīng)網(wǎng)絡(luò)、通用強化學(xué)習(xí)算法和蒙特卡洛樹搜索，在除了游戲規(guī)則外沒有任何知識背景的情況下，通過自我對弈進行強化學(xué)習(xí)。強化學(xué)習(xí)的方式是一種通過“試錯”的機器學(xué)習(xí)方式。

　　DeepMind在其博客中介紹，一開始AlphaZero完全是在瞎玩，但隨著時間的推移，系統(tǒng)從勝、負(fù)和平局中學(xué)習(xí)，調(diào)整神經(jīng)網(wǎng)絡(luò)的參數(shù)，如此往復(fù)循環(huán)，每過一輪，系統(tǒng)的表現(xiàn)就提高了一點點，自我對弈的質(zhì)量也提高了一點點，神經(jīng)網(wǎng)絡(luò)也就越來越準(zhǔn)確。神經(jīng)網(wǎng)絡(luò)所需的訓(xùn)練量取決于游戲的風(fēng)格和復(fù)雜程度。經(jīng)過試驗，AlphaZero花了9個小時掌握國際象棋，花了12個小時掌握日本將棋，花了13天掌握圍棋。

　　

　　AlphaZero的訓(xùn)練步驟

　　AlphaZero繼承了AlphaGo Zero的算法設(shè)置和網(wǎng)絡(luò)架構(gòu)等，但兩者也有諸多不同之處。比如圍棋中很少會出現(xiàn)平局的情況，因此AlphaGo Zero是在假設(shè)結(jié)果為“非贏即輸”的情況下，對獲勝概率進行估計和優(yōu)化。而AlphaZero會將平局或其他潛在結(jié)果也納入考慮，對結(jié)果進行估計和優(yōu)化。

　　其次圍棋棋盤發(fā)生旋轉(zhuǎn)和反轉(zhuǎn)，結(jié)果都不會發(fā)生變化，因此AlphaGo Zero會通過生成8個對稱圖像來增強訓(xùn)練數(shù)據(jù)。但國際象棋和日本將棋中，棋盤是不對稱的。因此，AlphaZero不會增強訓(xùn)練數(shù)據(jù)，也不會在蒙特卡洛樹搜索期間轉(zhuǎn)換棋盤位置。

　　在AlphaGo Zero中，自我對弈是由以前所有迭代中最好的玩家生成的，而自我對弈也是與這個產(chǎn)生的新玩家對于。而AlphaZero只繼承了AlphaGo Zero的單一神經(jīng)網(wǎng)絡(luò)，這個神經(jīng)網(wǎng)絡(luò)不斷更新，而不是等待迭代完成。自我對弈是通過使用這個神經(jīng)網(wǎng)絡(luò)的最新參數(shù)生成的，因此省略了評估步驟和選擇最佳玩家的過程。

　　此外，AlphaGo Zero使用的是通過貝葉斯優(yōu)化調(diào)整搜索的超參數(shù);AlphaZero中，所有對弈都重復(fù)使用相同的超參數(shù)，因此無需進行針對特定某種游戲的調(diào)整。唯一的例外是為保證探索噪聲和學(xué)習(xí)率。

　　研究團隊展示了在AlphaZero執(zhí)白、Stockfish執(zhí)黑的一局國際象棋里，經(jīng)過1000次、10000次……直到100萬次模擬之后，AlphaZero蒙特卡洛樹的內(nèi)部搜索狀態(tài)。每個樹狀圖解都展示了10個最常搜索的狀態(tài)。

　　

　　通過自我學(xué)習(xí)掌握國際象棋、日本將棋和圍棋的強化學(xué)習(xí)算法《科學(xué)》雜志圖

　　DeepMind研究團隊介紹，每個AI的硬件都是定制的。例如，在TCES世界錦標(biāo)賽上，Stockfish和Elmo使用的是44核CPU。而AlphaZero和AlphaGo Zero則使用了一臺配備了4個第一代TPU和44核CPU的機器。雖然架構(gòu)沒有可比性，但第一代TPU的處理速度與英偉達公司的Titan V型商用GPU相當(dāng)。研究團隊在訓(xùn)練環(huán)節(jié)里，投入了5000個一代TPU來生成自我對弈游戲，16個二代TPU來訓(xùn)練神經(jīng)網(wǎng)絡(luò)。

　　卡斯帕羅夫：聰明地工作比拼命地工作更重要

　　國際象棋是計算機科學(xué)家很早就開始研究的領(lǐng)域。1997年，深藍(lán)(Deep Blue)擊敗了人類國際象棋冠軍卡斯帕羅夫，這一事件成為了人工智能發(fā)展的里程碑。但彼時卡斯帕羅夫?qū)ι钏{(lán)的印象并不深刻，認(rèn)為深藍(lán)的智能水平和一個鬧鐘差不多。如今，他對棋類AI的看法也發(fā)生了轉(zhuǎn)變。他認(rèn)為AlphaZero“像自己一樣”，下棋風(fēng)格多變而開放。

　　在同一期《科學(xué)》雜志上，卡斯帕羅夫撰文稱，“傳統(tǒng)的機器是通過不斷枚舉來下棋，最終把棋局拖入無聊的平局。但在我的觀察中，AlphaZero會優(yōu)先考慮棋子的活動而非盤面上的點數(shù)優(yōu)勢，并且喜歡在相對風(fēng)險更大的地方落子?！?/p>

　　盡管與傳統(tǒng)的冠軍級程序相比，研究人員用訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)指導(dǎo)蒙特卡羅樹搜索，來選擇最有可能獲得勝利的一步，因此AlphaZero每秒計算的位置要少得多。據(jù)DeepMind介紹，在國際象棋中，AlphaZero每秒僅計算6萬個位置，相比之下，Stockfish則會計算6千萬個位置。但從比賽的結(jié)果來看，AlphaZero的思考顯然更有效率。

　　在國際象棋比賽中，AlphaZero擊敗了2016年TCEC(第九季)世界冠軍Stockfish，在1000場比賽中，贏得155場比賽，輸了6場(其余為平局)。為了驗證AlphaZero的穩(wěn)健性，研究團隊還進行了一系列比賽，這些比賽都是從“人類開局方式”開始的，而AlphaZero都擊敗了Stockfish。

　　在將棋比賽中，AlphaZero擊敗了2017年CSA世界冠軍版Elmo，贏得了91.2%的比賽。

　　在圍棋比賽中，AlphaZero擊敗了AlphaGo Zero，贏得了61%的比賽。

　　對于AlphaZero取得的戰(zhàn)績，卡斯帕羅夫認(rèn)為這正是印證了一句老話——聰明地工作比拼命地工作更重要。

　　

　　在AlphaZero對陣各領(lǐng)域最強AI的戰(zhàn)績，綠色代表AlphaZero獲勝，灰色代表平局，粉色代表輸棋。《科學(xué)》雜志圖

　　此外，卡斯帕羅夫表示，一個程序的特點通常反映了程序員思考的優(yōu)先級和思維上的偏見，但由于AlphaZero是通過跟自己下棋來完善自己的思路的，所以它的風(fēng)格反映的就是它自己。

　　在進行馬拉松式比賽的過程中，DeepMind研究團隊發(fā)現(xiàn)，AlphaZero自己發(fā)現(xiàn)并掌握了一些人類下棋時摸索出來的套路，比如在國際象棋中，AlphaZero掌握了幾種常見的開局模式、保王(King Safety)的思維以及各種兵陣的布局。但另一方面AlphaZero是自學(xué)成才的，不受到傳統(tǒng)觀念的影響，因此它還能為傳統(tǒng)策略的發(fā)展注入新鮮的血液。這一點得到了日本將棋史上第一個達成七冠王的羽生善治的贊同。

　　“AlphaZero會將王移到棋盤中央，從人類的角度來看，這是有違將棋理論的，它的一些路數(shù)走得也很危險。但令人難以置信的是，它始終控制著局面。AlphaZero獨特的風(fēng)格打開了日本將棋新世界的大門。” 羽生善治表示。

<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=114&cb=INSERT_RANDOM_NUMBER_HERE&n=a7a83b30' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=115&cb=INSERT_RANDOM_NUMBER_HERE&n=a3d98779' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=116&cb=INSERT_RANDOM_NUMBER_HERE&n=abca108c' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=117&cb=INSERT_RANDOM_NUMBER_HERE&n=a1775170' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=118&cb=INSERT_RANDOM_NUMBER_HERE&n=a449048b' border='0' alt='' /></a>

關(guān)鍵詞： DeepMind AlphaZero

評論

相關(guān)推薦

谷歌合并旗下兩大人工智能部門Brain和DeepMind

智能計算谷歌人工智能 Brain DeepMind | 2023-04-21

DeepMind劃時代杰作！AlphaFold蛋白結(jié)構(gòu)預(yù)測擊敗人類奪冠

智能計算 AlphaFold DeepMind | 2018-12-05

AlphaZero登上《科學(xué)》封面:一個算法通吃三大棋類

智能計算 DeepMind AlphaZero | 2018-12-10

谷歌與DeepMind：史上最強AI拉鋸戰(zhàn)

智能計算谷歌 DeepMind | 2019-03-19

42億虧損再創(chuàng)新高！DeepMind持續(xù)多年虧損后，仍無商業(yè)化市場

智能計算 DeepMind 人工智能谷歌 | 2020-12-29

DeepMind加入動物保護行列用AI分析野生動物行為

智能計算 DeepMind AI 野生動物行為 | 2019-08-16

AI可能會改善乳房X線圖像診斷缺陷

智能計算 AI DeepMind | 2018-10-11

DeepMind 聯(lián)合創(chuàng)始人提出新的圖靈測試：讓 AI 將 10 萬美元變成 100 萬美元

智能計算 AI DeepMind | 2023-06-21

【轉(zhuǎn)】DeepMind 又跟谷歌「鬧獨立」，背后其實是 AI 行業(yè)的通病

浮沉1988 | 2021-05-26

DeepMind與Waymo合作提高AI精度加速模型訓(xùn)練

智能計算 DeepMind Waymo AI | 2019-07-31

DeepMind的TF Hub demo詮釋「史上最強 GAN 圖像生成器」

智能計算 DeepMind 圖像生成器 | 2018-11-21

焦點

推薦視頻

技術(shù)專區(qū)

看屁屁www成人影院,亚洲人妻成人图片,亚洲精品成人午夜在线,日韩在线欧美成人 (function(){ var bp = document.createElement('script'); var curProtocol = window.location.protocol.split(':')[0]; if (curProtocol === 'https') { bp.src = 'https://zz.bdstatic.com/linksubmit/push.js'; } else { bp.src = 'http://push.zhanzhang.baidu.com/push.js'; } var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(bp, s); })();