人類如何向AlphaGo學(xué)習(xí)出人頭地?
作者 高煥堂 臺灣VR產(chǎn)業(yè)聯(lián)盟主席、廈門VR/AR榮譽會長兼總顧問
本文引用地址:http://www.ex-cimer.com/article/201804/379049.htm在當(dāng)今AI潮流下,企業(yè)和年輕人,如何出人頭地呢? AI機器人AlphaGo打敗天下無敵手,已經(jīng)出人頭地了。人們何不向AlphaGo(及AlphaGo Zero)學(xué)習(xí)呢?
因為AlphaGo懂得如何征服自己面對的巨大不確定性棋局,因而超越了人類頂尖高手。學(xué)習(xí)AlphaGo如何探索機會之后,創(chuàng)客就懂得了如何面對AI的不確定市場。企業(yè)就像AlphaGo一樣,可以超越頂尖的人類競爭對手,出人頭地了。
傳統(tǒng)上,人類的學(xué)習(xí)偏重于“利用”所學(xué)的知識,去發(fā)揮所長,解決問題。如果人類(如創(chuàng)客)能從AI強化學(xué)習(xí)得到啟示,強化探索能力,則人人能探索更多可能,得到更多機會,如圖1所示。
在高度不確定性的環(huán)境里,唯有懂得降低風(fēng)險,才敢大膽探索、提高勝率。一旦你選擇了創(chuàng)客/創(chuàng)業(yè)之路,若能向它學(xué)會探索機會的方法,將會協(xié)助你在創(chuàng)業(yè)路途上心想事成,鴻圖大展。
1 強化學(xué)習(xí):探索和利用之間找到平衡
強化學(xué)習(xí)(Reinforcement Learning)的算法又稱為近似動態(tài)規(guī)劃(approximate dynamic programming,簡稱ADP)。它在探索(在未知的領(lǐng)域)和利用(現(xiàn)有知識)之間找到平衡。探索就是嘗試以前從未想過或做過的事情,以求獲得更高的報酬。利用就是做當(dāng)前條件下能產(chǎn)生最大回報的事情。
例如,假設(shè)在你家的附近有十個餐館,到目前為止,你只在其中的八家餐館吃過飯,了解了這八家餐館中哪家是最好吃的。如果有一天,你的女朋友來看你,你想請她去最棒的餐館晚餐。請問您會如何選擇餐館呢?在這個例子里,利用就意味著你帶她去所知道的八家中最好吃餐館;而探索則是帶她去你從沒吃過的第九家或第十家餐館晚餐。
如果你選擇八家中最好吃的餐館,那么,也許第九家或第十家比這八家都好吃呢?反之,如果你選擇第九家或第十家,也許這兩家也可能比那八家都難吃。
那么,你該如何選擇呢?這就是“探索-利用”困境。強化學(xué)習(xí)更接近生物學(xué)習(xí)的本質(zhì),一個標(biāo)準(zhǔn)的強化學(xué)習(xí)算法必然要包括探索和利用,強化學(xué)習(xí)更接近生物學(xué)習(xí)的本質(zhì)。
谷歌的專家們(即人類老師)已經(jīng)把這種“探索和利用”平衡的技巧(算法)教給了AlphaGo(機器學(xué)生),讓AlphaGo(及AlphaGo Zero)超越了人類的圍棋頂尖高手。
傳統(tǒng)的人類學(xué)習(xí)是學(xué)以致用(利用所學(xué))為依歸,由于常常受限于現(xiàn)有知識,無論是人類或機器學(xué)生都只能得到區(qū)域最優(yōu),如圖2所示。
因此,無論是機器學(xué)生或人類學(xué)生,一旦具有強化學(xué)習(xí)能力,都能大大提升其探索未知機會的能力,有信心去探索更大的狀態(tài)空間,從而得到全局最優(yōu),讓學(xué)生們成為AI時代的大贏家,人人能探索更多可能,也捕捉到更多好機會。
2 懂得避風(fēng)險,才敢大膽探索、才有熱情創(chuàng)新
大膽探索的同時,必須要有效降低風(fēng)險。這是AI時代人類可以向機器學(xué)習(xí)的重要一課。AI強化學(xué)習(xí)已經(jīng)把這種“探索-利用”最佳平衡的算法效益發(fā)揮出來,然而需要搭配一種降低風(fēng)險的策略。AlphaGo的目標(biāo)總是將獲勝機率最大化放在第一位,它會透過尋找確定的搜索途徑實現(xiàn)最低風(fēng)險的獲勝機會。例如,AlphaGo的行為會傾向為了取勝而放棄更多贏子數(shù),只為了降低不能取勝的風(fēng)險。
AlphaGo的蒙地卡羅算法給出的是搜索之后的勝率評估,然后AI會根據(jù)這個勝率來選擇落子點。懂得避免風(fēng)險,才敢大膽探索、熱情創(chuàng)新。因而,AlphaGo能在高度不確定性的圍棋棋局中超越人類高手。俗語說,商場如戰(zhàn)場,它們都跟圍棋競賽一樣具有高度的不確定性。因而人們(如企業(yè)家)可以從AlphaGo學(xué)會如何在商場上,善于面對如圍棋棋局中高度不確定性的市場環(huán)境,超越其他競爭者!
3 與不確定性共舞(Living with uncertainty)
向AlphaGo學(xué)習(xí),有助于提升人們(如學(xué)生)的避風(fēng)險能力和信心,以便更具備創(chuàng)新精神。就如同,下述這句名言:
“When you focus on problems,you’ll have more problems. When you focus on possibilities,you’ll have more opportunities.”(當(dāng)你專注于問題時,您就會有更多的問題;當(dāng)您專注于可能性時,您就會有更多的機會。)
當(dāng)人們一直專注于問題時,是基于過去經(jīng)驗,評估具有現(xiàn)實條件支撐,力求化解問題或避免問題發(fā)生的或然性(probability),在心中逐漸萌生具有高度的明確感。這種通過或然性思維而得到地明確感稱為或然性明確感。
大家都知道,當(dāng)面對不確定情況時,人們總是需要明確感才會安心。大多數(shù)人習(xí)慣于或然性思維,一直專注于問題,力求化解問題或避免問題發(fā)生的或然性。于是,在心中逐漸萌生具有高度安心的明確感
這種或然性思維得到的明確感稱為或然性明確感,但是,常常會基于經(jīng)驗和現(xiàn)實而過濾掉機率小的可能方案,而失去許多機會。
可能性明確感試圖涵蓋未來各種可能的機會,避免基于經(jīng)驗和現(xiàn)實而過濾掉或機率小的可能方案。然后,逐步探索經(jīng)驗和現(xiàn)實進行否證而去蕪存菁,逐漸提升心中的明確感。即面對復(fù)雜和新的未知世界,培養(yǎng)先容納內(nèi)心的不確定性,規(guī)劃方案并采取行動試驗(試錯),逐漸提升明確性和信心。
可能性意味著或然性很小的事件,有人稱之為“黑天鵝”。它的出現(xiàn),初期并不起眼,經(jīng)過一段時間,逐漸產(chǎn)生乘數(shù)效果的巨大效應(yīng)。為什么會是“當(dāng)你專注于可能性時,你就會有更多的機會”呢? 因為上述的一段時間是一項寶貴的資產(chǎn),例如,張榮發(fā)先生也是洞悉到物流集裝箱(黑天鵝)而獲得寶貴時間,并且預(yù)做準(zhǔn)備,因而獲得更多機會。而后來才進入的競爭者,就因缺乏時間資源而失去競爭力。
大多數(shù)人習(xí)慣于或然性思維者,他們常常成為失去寶貴時間的后知后覺者,因為他們會覺得黑天鵝,還沒普及流行,尚未成氣候。這種面對不確定,逐步提升心中的明確感,通稱為與不確定性共舞。人們總是需要明確感才會安心。或然性明確感與可能性明確感,其目的是一致的:滿足內(nèi)心所需的明確感。只是手段不同而已。
例如,一只小獅子肚子餓了,依據(jù)成功經(jīng)驗奮力去追兔子,只是捕獲的兔子日漸減少(可能兔子變敏感了),有些困惑(明確感降低)。這只小獅子的媽媽就教他:肚子餓了,就閉上眼睛睡大覺,不要亂跑。小獅子滿腦困惑,不確定感急速上升,非常不安。但母命難違,只好勉強為之,果然耳朵變靈敏了,清晰地聽見兔子聲音越來越近,然后猛然奔出一抓,輕易捕獲,飽餐一頓,繼續(xù)睡大覺。
君不見,身為野獸之王的雄獅、母獅,常??此葡胨X的表情,真是“總裁獅子心”呀! 小獅子專注于問題(如肚子餓了),卻引來更多的問題(如追累了,走不動,引來生命危險)。媽媽教小獅子不要圍繞問題,而專注于可能性(如原來以為兔子不可能自動送上門),反而發(fā)現(xiàn)更多的機會(如更容易填飽肚子的新途徑)。
4 結(jié)論
從AlphaGo下圍棋可以發(fā)現(xiàn),在面對高度不確定性的環(huán)境時,它懂得專注于可能性,探索更多機會,獲得全局最優(yōu)而出人頭地。人類可以從AlphaGo學(xué)習(xí)到與不確定性共舞的能力,就會如同小獅子一般,探索到更多贏家之道。
參考文獻:
[1] 高煥堂. VR內(nèi)容、素材及其行業(yè)應(yīng)用[J].電子產(chǎn)品世界, 2016(11):88.
[2]王瑩.人工智能的進展及發(fā)展建議[J].電子產(chǎn)品世界, 2017(2-3):23-26.
[3]王瑩,王金旺.異構(gòu)計算帶來AI視覺新突破[J].電子產(chǎn)品世界, 2017(7):28-29.
本文來源于《電子產(chǎn)品世界》2018年第5期第76頁,歡迎您寫論文時引用,并注明出處。
評論