<meter id="pryje"><nav id="pryje"><delect id="pryje"></delect></nav></meter>

<label id="pryje"></label>

新聞中心

EEPW首頁 > 智能計算 > 設(shè)計應(yīng)用 > 學(xué)貫中西(10)：從RL領(lǐng)會如何與不確定性共舞

學(xué)貫中西(10)：從RL領(lǐng)會如何與不確定性共舞

作者：高煥堂（銘傳大學(xué)、長庚大學(xué)教授，臺北）時間：2022-08-11 來源：電子產(chǎn)品世界

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

收藏

1 前言

本文引用地址：http://www.ex-cimer.com/article/202208/437253.htm

在上一期里，我們說明了當(dāng)人類的慢想 ( 創(chuàng)意 ) 與 AI 的快思 ( 直覺 ) 互相平衡時，最能展現(xiàn)協(xié)同創(chuàng)造力。有了 AI 經(jīng)驗直覺來協(xié)助去蕪存菁，人類更敢超越經(jīng)驗去進(jìn)行大跨度的聯(lián)想和探索。

這樣的協(xié)同組織體系，非常適合與高度不確定的外在環(huán)境 (Environment) 互動，并從外在環(huán)境獲取最大的回報。這是自然界生物 ( 有機體系 ) 的天賦學(xué)習(xí)本質(zhì)，非常接近于 AI 強化學(xué)習(xí) (Reinforcement Learning，簡稱 RL) 機制。例如，AlphaGo Zero 增添了 RL，就具有更強大的探索能力，能夠在不確定性極大的圍棋上打敗人類的頂尖高手，如圖 1。

圖1

本文就藉由 RL 來說明上述的協(xié)同創(chuàng)新力，如何表現(xiàn)于不確性環(huán)境里的決策，也進(jìn)一步闡述其探索全局最優(yōu)解 (Global optimum) 的思維過程。

2 認(rèn)識強化學(xué)習(xí)

強化學(xué)習(xí) (RL) 是機器學(xué)習(xí) (ML) 的一種模型，它是來自于近似動態(tài)規(guī)劃 (approximate dynamic programming， ADP) 的算法。它的主要特點是：能在探索 ( 在未知的領(lǐng)域 ) 和利用 ( 現(xiàn)有知識 ) 之間找到平衡。

探索 (Exploration) 就是：嘗試以前從未做過的事情，以求獲得更高的報酬。而利用 (Exploitation) 就是：做當(dāng)前所知能產(chǎn)生最大回報的事情。

例如，假設(shè)您的住家周邊有十個餐館，而您只去過八家餐館吃飯，而有兩家還沒去消費過。基于過去的經(jīng)驗，您了解這八家餐館中的哪一家的是最實惠又好吃的。如果有一天，您的好朋友來訪，您想請他去最棒的餐館吃飯。那么，您會如何選擇出最棒的餐館呢？

此時，方案一是：利用。就是利用您既有的知識經(jīng)驗，從您經(jīng)歷過的八家餐館中挑選出一家最棒的餐館。另外，方案二是：探索。就是您選擇沒去過的兩家 ( 即第九家或第十家 )，一起去品嘗新的滋味。

如果您采取方案一：帶他去八家中最棒的餐館吃飯。那么如果第九家或第十家比這八家都更棒，就失去最好的了。反之，如果采取方案二：帶他去第九家或第十家餐館。那么如果這兩家并不如前八家好吃，就得不償失了。

這是有趣的不確定性情境，就是通稱的 < 探索 - 利用 > 困境 (Exploration-Exploitation dilemma)，我們該如何與他共舞，來做最具智慧的抉擇呢？此時，強化學(xué)習(xí)將讓“探索”和“利用”兩者取得最佳的平衡。

3 “局部最優(yōu)”與“全局最優(yōu)”

“利用”就是：做當(dāng)前所知能產(chǎn)生最大報酬的事情。例如，剛才提到的，從您經(jīng)歷過的八家餐館中挑選出一家最棒的餐館。這樣的缺點是，常常受限于 ( 現(xiàn)有知識 )，只能獲得區(qū)域性最優(yōu) (Local optima) 方案。傳統(tǒng)上，人類的學(xué)習(xí)偏重于“利用”所學(xué)的知識，去發(fā)揮所長，追求很有把握、很可能 (Probable) 的方案，并從中挑選一個最高報酬的解，如圖 2。

圖2

“探索”就是：嘗試、探索以前從未做過的事情，以求獲得可能的更高報酬。例如，剛才提到的，選擇沒去過的兩家 ( 即第九家或第十家 ) 餐館，可能比前八家更美味、好吃。然而，生物有機體系還有一種本能，去探索一些不太確定 (Improbable)的方案，然后挑選具有更高報酬的解，如圖 3。

圖3

AI 強化學(xué)習(xí)很接近這種生物學(xué)習(xí)的本質(zhì)，在探索未知領(lǐng)域和利用現(xiàn)有知識，兩者之間找到了最佳平衡，來獲得全局最優(yōu) (Global optima) 方案，如圖 4。

圖4

目前，人類已經(jīng)把這種“探索 - 利用”最佳平衡的技巧(算法)教給了 AI 機器，讓 AlphaGo Zero 超越了人類的圍棋頂尖高手。如果人類也能從 AI 強化學(xué)習(xí)得到啟示，強化探索能力，則人人能探索更多可能 (Possibility)，得到更多機會 (Opportunity)。

4 面對不確定性(Uncertainty)

不確定性的環(huán)境中，蘊含者各種可能性 (Possibility)，也將給探索者帶來許多機會 (Opportunity)。就如同西方的諺語：“When you focus on problems, you get problems. When you focus on possibilities, you have more opportunities.” ( 當(dāng)你專注于問題時，會引來更多問題。當(dāng)你專注于可能性時，你會有更多的機會。)

于是，我們就來關(guān)注可能性和機會。其中，“可能性”包括了：1) 很可能(Probable) ；2) 不太確定(Improbable)。其中，“不太確定”又包括：2a) 可能 (Possible)；2b) 很不可能 (Impossible)。如圖 5 所示。

圖5

對于所面對的不確定性環(huán)境中，所帶來的可能性和機會，進(jìn)行分門別類之后，就來采取“剪枝”策略、進(jìn)行“去蕪存菁”的動作，也就是：把不可能的部分刪除掉，如圖 6。

圖6

這里的“去蕪存菁”動作，可以大幅將低風(fēng)險。因為懂得避風(fēng)險，才敢大膽探索。AlphaGo 也擅用“去蕪存菁”策略，來縮小探索“空間”，提高探索效果。例如，AlphaGo 的目標(biāo)就是將獲勝機率最大化放在第一位，它的奏效策略是搜索途徑來實現(xiàn)最低風(fēng)險下的獲勝機會。AlphaGo 常常會傾向為了取勝而放棄更多贏子數(shù)，其目的是為了降低不能取勝的風(fēng)險，以便提高勝率。即使是很小的差距仍會納入謹(jǐn)慎考慮。例如，當(dāng) AlphaGo 面對 “贏 3 子，90% 勝率”和“贏 1/4 子，95% 勝率”兩種情況時，它會傾向選擇后者，力求降低風(fēng)險。

去蕪存菁之后，留下的部分，俗稱為：甜心區(qū) (Sweet spot)，如圖 7。

圖7

孫子兵法上也強調(diào)：不打沒把握的仗。股市名家巴菲特也強調(diào)：不賠錢原則。都是說明面對不確定時，重視降低風(fēng)險，來提高勝率。

5 與不確定性共舞(Living with uncertainty)

茲拿一個童話寓言故事，來綜合前面所述的內(nèi)涵。有一只小獅子肚子餓了，走到附近的草原上，依據(jù)成功經(jīng)驗和熟練的技技巧 ( 戰(zhàn)術(shù) ) 奮力去追小兔，填飽肚子。一日復(fù)一日，它發(fā)現(xiàn)捕獲的兔子日漸減少 ( 可能兔子變敏感了 )，有些困惑 ( 心生不確定性 )，回到家就問媽媽。獅子媽媽就教這小獅子，媽媽說：“你肚子餓了，就眼睛閉著，睡大覺，不要亂跑?！?/p>

小獅子滿腦困惑，不確定感急速上升，非常不安。但母命難違，只好勉強為之，果然耳朵變靈敏了，清晰聽見兔子聲音愈來愈近，然后猛然奔出一抓，輕易捕獲，飽食一餐，繼續(xù)睡大覺。君不見，身為野獸之王的雄獅母獅，常常看似想睡覺的表情。

然而，小獅子關(guān)注于肚子餓 (focus on problems)，卻引來更多問題 (more problems)，如追累了，走不動，引來生命危險等。而獅子媽媽則教小獅子不要圍繞問題，勇于拋掉無用的戰(zhàn)術(shù)，力求與不確定性共舞。因而發(fā)現(xiàn)更多機會 (more opportunities)，如兔子自動送上門來。

(注：本文轉(zhuǎn)載自《電子產(chǎn)品世界》雜志2022年8月期)

<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=114&cb=INSERT_RANDOM_NUMBER_HERE&n=a7a83b30' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=115&cb=INSERT_RANDOM_NUMBER_HERE&n=a3d98779' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=116&cb=INSERT_RANDOM_NUMBER_HERE&n=abca108c' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=117&cb=INSERT_RANDOM_NUMBER_HERE&n=a1775170' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=118&cb=INSERT_RANDOM_NUMBER_HERE&n=a449048b' border='0' alt='' /></a>

關(guān)鍵詞： 202208 AI RL 不確定性

評論

相關(guān)推薦

MT7668SN雙通道SDIO接口11ac級雙頻藍(lán)牙WiFi模塊RL-SM01F-7668S

natertech | 2018-01-02

蘋果承認(rèn)：AI模型使用谷歌定制芯片訓(xùn)練

智能計算蘋果 AI 谷歌定制芯片 | 2024-07-30

AI當(dāng)靠山軟件大廠SAP裁員擴大至上萬

智能計算 AI 軟件 SAP 裁員 | 2024-07-24

WTC-AI型太陽能熱水器電路圖

設(shè)計方案電子電路圖，WTC-AI 太陽能熱水器電路熱水器 | 2012-07-30

摩根士丹利：僅 GB200 AI 服務(wù)器業(yè)務(wù)，就為英偉達(dá)創(chuàng)造 2100 億美元年收入

智能計算 GB200 AI 英偉達(dá) GPU | 2024-07-26

iPhone 16將不會預(yù)裝AI功能？計劃通過iOS 18.1發(fā)布

iPhone AI iOS | 2024-07-30

“破局AI開發(fā)，釋放邊緣算力開發(fā)者訪談”，干貨滿滿！

視頻 intel AI OpenVINO | 2021-06-10

司邁特RL-175D儲藏柜式溫?zé)犸嬎畽C

設(shè)計方案邁特 RL-175D 儲藏柜式飲水機 | 2012-07-26

Meta發(fā)布“前沿級”開源AI模型扎克伯格：不怕競爭者使用

智能計算 Meta 開源 AI 模型扎克伯格 | 2024-07-24

AI驅(qū)動的嵌入式聲音和振動識別

視頻 ADI AI 嵌入式 OtoSense | 2018-10-23

WTC-AI太陽能熱水器電路圖

設(shè)計方案 WTC-AI 太陽能熱水器電路圖 | 2012-07-24

繼上次海聯(lián)達(dá)Ai-ap100拆機之電源改造

zhuwei0710 | 2013-04-03

海聯(lián)達(dá)（Aigale）Ai-HD1 無線全高清套件拆解

zhuwei0710 | 2013-04-28

電子元件培訓(xùn)教材

資源下載 NBA 電子元件識別電阻識別電容識別 AI MI SMT DIP 靜電防護(hù) | 2008-09-20

HBM4持續(xù)加速：AI時代競爭新焦點

網(wǎng)絡(luò)與存儲 HBM AI 內(nèi)存 | 2024-07-25

消息稱 OpenAI 公司 2024 年資金缺口達(dá)到 50 億美元

智能計算 OpenAI ChatGPT AI | 2024-07-25

大嘴業(yè)話-AI目前市場分析

視頻人工智能，AI，ChatGPT，互聯(lián)網(wǎng)技術(shù) | 2023-04-25

RL-SM02BD-8723BS系列WiFi模塊應(yīng)用選型簡析

natertech | 2016-07-30

國際奧委會：最大限度發(fā)揮 AI 工具影響力，體育人才選拔方式有望得到革新

智能計算 AI 奧運會體育 | 2024-07-26

2021春晚黑科技，火爆全網(wǎng)的\"打工牛\"是什么來頭？

視頻 AI 機器人 | 2021-02-26

DYNAMICS CIRCUITS(2)

資源下載 Zero-State Response RC Circuit Time Constant RL Circuit Complete Response Zero-Input Response | 2009-06-15

加大調(diào)整力度，教育部支持高校布局集成電路、AI 等專業(yè)

智能計算教育 AI 集成電路 | 2024-07-25

DYNAMICS CIRCUITS(1)

資源下載 Dynamics of Circuits Zero-Input Responses Time Constant Source-Free RL Circuit | 2009-06-15

光敏電阻器的電路圖形符號

設(shè)計方案符號圖形電路電阻變化 RL 字 | 2012-10-31

AI 芯片：一場燒錢的瘋狂競賽

智能計算 AI 芯片 | 2024-07-24

RTL8822BU雙通道USB接口11AC雙頻BT4.2藍(lán)牙WiFi二合一模塊RL-UM02SPC-8822BU

natertech | 2017-12-27

全波整流電路圖

設(shè)計方案電路電壓電流 RL 變壓器 u22 D | 2012-10-31

iCAN-4017 AI功能模塊

資源下載周立功單片機功能模塊 iCAN-4017 AI | 2007-03-30

RTL8192DU雙頻WiFi模塊個書

資源下載 RTL8192DU RL-UM02SP-8192DU 雙頻wifi模塊 | 2013-07-13

如何快速搭建手寫體識別演示系統(tǒng)

視頻 digikey AI 手寫體識別 | 2022-07-29

焦點

推薦視頻

技術(shù)專區(qū)

看屁屁www成人影院,亚洲人妻成人图片,亚洲精品成人午夜在线,日韩在线欧美成人 (function(){ var bp = document.createElement('script'); var curProtocol = window.location.protocol.split(':')[0]; if (curProtocol === 'https') { bp.src = 'https://zz.bdstatic.com/linksubmit/push.js'; } else { bp.src = 'http://push.zhanzhang.baidu.com/push.js'; } var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(bp, s); })();