<meter id="pryje"><nav id="pryje"><delect id="pryje"></delect></nav></meter>

<label id="pryje"></label>

新聞中心

EEPW首頁 > 機(jī)器人 > 業(yè)界動態(tài) > 25分鐘訓(xùn)練機(jī)器人學(xué)會6個動作，伯克利開發(fā)高效機(jī)器人操縱框架

25分鐘訓(xùn)練機(jī)器人學(xué)會6個動作，伯克利開發(fā)高效機(jī)器人操縱框架

作者：蕾師師時間：2021-01-04 來源：量子位

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

收藏

量子位報道 | 公眾號 QbitAI

本文引用地址：http://www.ex-cimer.com/article/202101/421756.htm

　　這個機(jī)械臂正在完成夠、拿、移、推、點(diǎn)、開等6個動作。

　　

　　而且動作嫻熟，還不存在失誤。

　　更令人意外的是，訓(xùn)練這個機(jī)械臂，只花了短短25分鐘。

　　即使有人為干擾，它也能夠成功完成抓取動作。

　　

　　還能抓起以前沒有見過的物體形狀。

　　

　　這就是來自加州大學(xué)伯克利分校的一項新研究——高效機(jī)器操作框架Framework for Efficient Robotic Manipulation（FERM），專門對機(jī)械臂進(jìn)行高效率操作的算法訓(xùn)練。

　　FERM為什么比其他方法效率高?

　　目前來看，大多數(shù)針對機(jī)器人訓(xùn)練的的RL算法效率都不是很好。

　　采用稀疏獎勵的方法訓(xùn)練Dota5游戲的人機(jī)操作，使之成為達(dá)到人類玩家的高手水平，需要花180年的游戲時間。

　　訓(xùn)練一個機(jī)械臂的手勢，則需要上千萬的模擬學(xué)習(xí)的樣本和兩周的訓(xùn)練時間。

　　Sim2Real和模擬學(xué)習(xí)這兩個方法稍微好點(diǎn)。Sim2Real需要接受模擬訓(xùn)練，再將訓(xùn)練結(jié)果運(yùn)用到現(xiàn)實(shí)事例中。

　　模擬學(xué)習(xí)則需要通過一系列的專業(yè)訓(xùn)練示范案例和監(jiān)督學(xué)習(xí)，才能得出最后的訓(xùn)練策略，實(shí)驗結(jié)果非常依賴于輸入示范案例的質(zhì)量。

　　FERM優(yōu)勢在于，既沒有依靠模擬訓(xùn)練轉(zhuǎn)換到現(xiàn)實(shí)，也不用高度依賴于輸入的示范案例的質(zhì)量。

　　而是基于非監(jiān)督性表征學(xué)習(xí)和數(shù)據(jù)擴(kuò)張技術(shù)，使用了pixel-based RL。

　　因此，它僅僅需要10個Demo，25分鐘的訓(xùn)練時間，就可以讓機(jī)器人學(xué)會六個動作。

　　FERM具體怎么訓(xùn)練？

　　FERM采用了基于像素的強(qiáng)化學(xué)習(xí)（pixel-based RL）方法。

　　

　　具體而言，先收集小部分演示數(shù)據(jù)，并且將這些數(shù)據(jù)存放在“回放緩沖區(qū)”上。

　　然后，用觀察結(jié)果結(jié)合對比損失量，來對編碼器進(jìn)行預(yù)訓(xùn)練。

　　而后，編碼器和“回放緩沖區(qū)”運(yùn)用一種線下的數(shù)據(jù)來加強(qiáng)RL算法，對RL智能體進(jìn)行訓(xùn)練。

　　在論文中，研究人員總結(jié)了FERM主要優(yōu)點(diǎn)：

　　1、高效率：FERM可以學(xué)習(xí)6種不同操作任務(wù)的最優(yōu)策略，在15-50分鐘的訓(xùn)練時間內(nèi)完成每項任務(wù)。

　　2、簡單統(tǒng)一的框架：框架結(jié)合現(xiàn)有的組成部分，將無監(jiān)督的預(yù)訓(xùn)練和在線RL與數(shù)據(jù)擴(kuò)充成一個單一高效的框架。

　　3、常規(guī)輕量設(shè)置：實(shí)施起來只需要一個機(jī)器人、一個GPU、兩個攝像頭、幾個演示，以及稀疏獎勵函數(shù)等等。

　　

　　具體的實(shí)驗結(jié)果如何？

　　實(shí)驗結(jié)果

　　這項實(shí)驗采用像素觀察的方法執(zhí)行了一系列任務(wù)。下圖的每一欄顯示了初始、中間、結(jié)果等三個狀態(tài)。只有當(dāng)機(jī)器人完成任務(wù)時，才會獲得稀疏獎勵。

　　

　　這個訓(xùn)練算法的效率可謂很高了。具體完成時間如下圖表格所示，在30分鐘左右，它就可以讓機(jī)器人學(xué)習(xí)操作任務(wù)。而簡單的“夠”（Reach）動作，則只需要三分鐘。

　　

　　實(shí)驗結(jié)果稱，它不需要很多的Demo，也不需要到大量的設(shè)備，首次完成任務(wù)的平均時間為11分鐘，并且可以在25分鐘內(nèi)訓(xùn)練出25分鐘訓(xùn)練機(jī)器人學(xué)會6個動作，伯克利開發(fā)高效機(jī)器人操縱框架6個機(jī)械動作。

　　所以研究人員驕傲地說：

　　

“據(jù)我們所知，F(xiàn)ERM是第一個能在不到一小時的時間內(nèi)，能通過像素點(diǎn)直接完成來自不同組、采用稀疏獎勵方法的機(jī)器操作任務(wù)?！?br/>

　　而根據(jù)相關(guān)報告，未來十年，制造業(yè)將需要460萬個崗位。許多制造商也都在轉(zhuǎn)向自動化生產(chǎn)，機(jī)械自動化將占比越來越高。FERM這樣的高效訓(xùn)練框架，可謂是制造業(yè)福音。

　　參考鏈接：
https://venturebeat.com/2020/12/16/new-framework-can-train-a-robotic-arm-on-6-grasping-tasks-in-less-than-an-hour/

<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=114&cb=INSERT_RANDOM_NUMBER_HERE&n=a7a83b30' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=115&cb=INSERT_RANDOM_NUMBER_HERE&n=a3d98779' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=116&cb=INSERT_RANDOM_NUMBER_HERE&n=abca108c' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=117&cb=INSERT_RANDOM_NUMBER_HERE&n=a1775170' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=118&cb=INSERT_RANDOM_NUMBER_HERE&n=a449048b' border='0' alt='' /></a>

關(guān)鍵詞： 訓(xùn)練機(jī)器人 操縱框架

評論

相關(guān)推薦

25分鐘訓(xùn)練機(jī)器人學(xué)會6個動作，伯克利開發(fā)高效機(jī)器人操縱框架

訓(xùn)練機(jī)器人操縱框架 | 2021-01-04

焦點(diǎn)

推薦視頻

技術(shù)專區(qū)

看屁屁www成人影院,亚洲人妻成人图片,亚洲精品成人午夜在线,日韩在线欧美成人 (function(){ var bp = document.createElement('script'); var curProtocol = window.location.protocol.split(':')[0]; if (curProtocol === 'https') { bp.src = 'https://zz.bdstatic.com/linksubmit/push.js'; } else { bp.src = 'http://push.zhanzhang.baidu.com/push.js'; } var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(bp, s); })();