2016人工智能技術(shù)發(fā)展進(jìn)程梳理
如果說2015年大家還在質(zhì)疑深度學(xué)習(xí)、人工智能,認(rèn)為這是又一輪泡沫的開始,那么2016年可以說是人工智能全面影響人們生活的一年。從AlphaGo到無人駕駛,從美國大選到量子計(jì)算機(jī),從小Ai預(yù)測“我是歌手”到馬斯克的太空計(jì)劃,每個(gè)焦點(diǎn)事件背后都與人工智能有聯(lián)系??v覽2016年的人工智能技術(shù),筆者的印象是實(shí)用化、智能化、芯片化、生態(tài)化,讓所有人都觸手可及。下面我們以時(shí)間為坐標(biāo),盤點(diǎn)這一年的技術(shù)進(jìn)展。
本文引用地址:http://www.ex-cimer.com/article/201702/343473.htm3月9-15日,棋壇新秀AlphaGo一戰(zhàn)成名,以4:1成績打敗韓國職業(yè)棋手圍棋九段李世石(圍棋規(guī)則介紹:對弈雙方在19x19棋盤網(wǎng)格的交叉點(diǎn)上交替放置黑色和白色的棋子,落子完畢后,棋子不能移動(dòng),對弈過程中圍地吃子,以所圍“地”的大小決定勝負(fù))。
其實(shí)早在2015年10月,AlphaGo v13在與職業(yè)棋手、歐洲冠軍樊麾二段的五番棋比賽中,以5:0獲勝。在與李世石九段比賽中版本為v18,賽后,AlphaGo榮獲韓國棋院授予的“第〇〇一號 名譽(yù)九段”證書。7月19日,AlphaGo在GoRantings世界圍棋排名中超過柯潔,成為世界第一。
看到AlphaGo這一連串不可思議的成績,我們不禁要問,是什么讓AlphaGo在短短時(shí)間內(nèi)就能以如此大的能量在古老的圍棋這一競技項(xiàng)目迅速擊敗數(shù)千年歷史積累的人類?
圖1 AlphaGo與李世石的對陣
AlphaGo由Google在2014年收購的英國人工智能公司DeepMind開發(fā),背后是一套神經(jīng)網(wǎng)絡(luò)系統(tǒng),由許多個(gè)數(shù)據(jù)中心作為節(jié)點(diǎn)相連,每個(gè)節(jié)點(diǎn)內(nèi)有多臺超級計(jì)算機(jī)。這個(gè)系統(tǒng)基于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)——一種在大型圖像處理上有著優(yōu)秀表現(xiàn)的神經(jīng)網(wǎng)絡(luò),常用于人工智能圖像識別,比如Google的圖片搜索、百度的識圖、阿里巴巴拍立淘等都運(yùn)用了卷積神經(jīng)網(wǎng)絡(luò)。AlphaGo背后的系統(tǒng)還借鑒了一種名為深度強(qiáng)化學(xué)習(xí)(Deep Q-Learning,DQN)的技巧。強(qiáng)化學(xué)習(xí)的靈感來源于心理學(xué)中的行為主義理論,即有機(jī)體如何在環(huán)境給予的獎(jiǎng)勵(lì)或懲罰的刺激下,逐步形成對刺激的預(yù)期,產(chǎn)生能獲得最大利益的習(xí)慣性行為。不僅如此,AlphaGo借鑒了蒙特卡洛樹搜索算法(Monte Carlo Tree Search),在判斷當(dāng)前局面的效用函數(shù)(value function)和決定下一步的策略函數(shù)(policy function)上有著非常好的表現(xiàn)。作為一個(gè)基于卷積神經(jīng)網(wǎng)絡(luò)、采用了強(qiáng)化學(xué)習(xí)模型的人工智能,AlphaGo具有廣泛適應(yīng)性,學(xué)習(xí)能力很強(qiáng),除了玩游戲、下圍棋,最近的DeepMind Health項(xiàng)目將人工智能引入了疾病診斷和預(yù)測中,為人們的健康提供更好的保障。
AlphaGo系統(tǒng)和IBM在上個(gè)世紀(jì)打敗國際象棋大師卡斯帕羅夫的深藍(lán)超級計(jì)算機(jī)有什么不同?
國際象棋AI算法一般是枚舉所有可能招法,給局面打分。AI能力主要分為兩方面:一是局面打分算法是否合理,二是迭代的深度。國際象棋開局的時(shí)候可以動(dòng)8個(gè)兵(*2)和兩個(gè)馬(*2)共20種招法,雖然開局到中期招法會(huì)多一點(diǎn),但是總數(shù)也就是幾十種,游戲判斷局面也簡單,將軍的加分,攻擊強(qiáng)子加分,被將軍或者有強(qiáng)子被攻擊減分,控制范圍大的加分,國際象棋里即將升變的兵加分,粗略一算就可以有個(gè)相對不錯(cuò)的判斷。
圍棋棋盤上每一點(diǎn),都有黑、白、空,三種情況,棋盤上共有19*19=361個(gè)點(diǎn),所以可能產(chǎn)生的局?jǐn)?shù)為3的361次方種(可以想象,從137億年前宇宙初始下起,60億人口每天下60億盤,到目前為止,只下了不到億億億萬分之一)。
圍棋可選招法非常多,在初期可以全盤落子,打劫的時(shí)候則要找“劫材”。圍棋判斷形勢的復(fù)雜度也很高,因?yàn)樗衅遄拥匚黄降龋辉谟谝蛔佣▌儇?fù),但每一子對于全局又都是牽一發(fā)而動(dòng)全身,所以需要的是整體協(xié)調(diào)和全局決策。AlphaGo不僅能很快計(jì)算圍棋當(dāng)前局面的效用函數(shù)和決定下一步的策略函數(shù),還能結(jié)合蒙特卡洛樹搜索算法進(jìn)行縱深的分析,得到整局棋的“最優(yōu)解”。無論從計(jì)算復(fù)雜度還是決策的深度上,AlphaGo都有質(zhì)的飛躍。
小結(jié): AlphaGo可能是Google公關(guān)塑造的一個(gè)AI形象,但這是一次十分成功的嘗試,引起了世界性的關(guān)注。在這些華麗的成績之外,技術(shù)鋪墊仍然是一項(xiàng)不容小覷的工作,包括DQN算法模型與硬件平臺。我們接下來會(huì)詳細(xì)介紹。
深度增強(qiáng)學(xué)習(xí)DQN
增強(qiáng)學(xué)習(xí)是最近幾年中機(jī)器學(xué)習(xí)領(lǐng)域的最新進(jìn)展。
增強(qiáng)學(xué)習(xí)的目的是通過和環(huán)境交互學(xué)習(xí)到如何在相應(yīng)的觀測中采取最優(yōu)行為。行為的好壞可以通過環(huán)境給的獎(jiǎng)勵(lì)來確定。不同的環(huán)境有不同的觀測和獎(jiǎng)勵(lì)。
增強(qiáng)學(xué)習(xí)和傳統(tǒng)機(jī)器學(xué)習(xí)的最大區(qū)別在于,增強(qiáng)學(xué)習(xí)是一個(gè)閉環(huán)學(xué)習(xí)的系統(tǒng),算法選取的行為會(huì)直接影響到環(huán)境,進(jìn)而影響到該算法之后從環(huán)境中得到的觀測。
增強(qiáng)學(xué)習(xí)存在著很多傳統(tǒng)機(jī)器學(xué)習(xí)所不具備的挑戰(zhàn)。
首先,因?yàn)樵谠鰪?qiáng)學(xué)習(xí)中沒有確定在每一時(shí)刻應(yīng)該采取哪個(gè)行為的信息,算法必須通過探索各種可能才能判斷出最優(yōu)行為。如何有效地在可能行為數(shù)量較多的情況下有效探索,是增強(qiáng)學(xué)習(xí)的重要問題。
其次,在增強(qiáng)學(xué)習(xí)中一個(gè)行為不僅可能會(huì)影響當(dāng)前時(shí)刻的獎(jiǎng)勵(lì),而且還可能會(huì)影響之后所有時(shí)刻的獎(jiǎng)勵(lì)。
在最壞的情況下,一個(gè)好行為不會(huì)在當(dāng)前時(shí)刻獲得獎(jiǎng)勵(lì),而會(huì)在很多步都執(zhí)行正確后才能得到。在這種情況下,判斷出獎(jiǎng)勵(lì)和很多步之前的行為有關(guān)非常難。
雖然增強(qiáng)學(xué)習(xí)存在很多挑戰(zhàn),它也能夠解決很多傳統(tǒng)機(jī)器學(xué)習(xí)不能解決的問題。首先,由于不需要標(biāo)注的過程,增強(qiáng)學(xué)習(xí)可以更有效地解決環(huán)境中所存在著的特殊情況。比如,無人車環(huán)境中可能會(huì)出現(xiàn)行人和動(dòng)物亂穿馬路的特殊情況。只要模擬器能模擬出這些特殊情況,增強(qiáng)學(xué)習(xí)就可以學(xué)習(xí)到怎么在這些特殊情況中做出正確的行為。其次,增強(qiáng)學(xué)習(xí)可以把整個(gè)系統(tǒng)作為一個(gè)整體,從而對其中的一些模塊更加魯棒。例如,自動(dòng)駕駛中的感知模塊不可能做到完全可靠。前一段時(shí)間,特斯拉無人駕駛的事故就是因?yàn)樵趶?qiáng)光環(huán)境中感知模塊失效導(dǎo)致的。增強(qiáng)學(xué)習(xí)可以做到,即使在某些模塊失效的情況下也能做出穩(wěn)妥的行為。最后,增強(qiáng)學(xué)習(xí)可以比較容易學(xué)習(xí)到一系列行為。
自動(dòng)駕駛需要執(zhí)行一系列正確的行為才能成功駕駛。如果只有標(biāo)注數(shù)據(jù),學(xué)習(xí)到的模型每個(gè)時(shí)刻偏移了一點(diǎn),到最后可能就會(huì)偏移非常多,產(chǎn)生毀滅性的后果。而增強(qiáng)學(xué)習(xí)能夠?qū)W會(huì)自動(dòng)修正偏移。
DeepMind曾用五款雅達(dá)利(Atari)游戲Pong、打磚塊、太空侵略者、海底救人、Beam Rider分別測試了自己開發(fā)的人工智能,結(jié)果發(fā)現(xiàn):游戲后,神經(jīng)網(wǎng)絡(luò)的操控能力已經(jīng)遠(yuǎn)超世界上任何一位已知的游戲高手。
DeepMind用同樣的一套人工智能,測試各種各樣的智力競技項(xiàng)目,取得了優(yōu)異的戰(zhàn)績,足以證明坐在李世石面前的AlphaGo,擁有多強(qiáng)的學(xué)習(xí)能力。
圖2 Atari游戲畫面
小結(jié):如果說深度學(xué)習(xí)相當(dāng)于嗷嗷待哺的嬰兒,需要人們準(zhǔn)備好大量有營養(yǎng)的數(shù)據(jù)親手喂給它,那么增強(qiáng)學(xué)習(xí)就是擁有基本生活能力的青少年,叛逆而獨(dú)立,充滿激情,喜歡挑戰(zhàn),不斷在對抗中學(xué)習(xí)成長。雖然與成熟的人工智能仍有較大差距,但可以肯定,這只是個(gè)時(shí)間問題。
評論