垃圾分類(lèi)不用愁 機(jī)器人來(lái)幫你
從上海,到北京,每個(gè)城市都在搞垃圾分類(lèi)。
干垃圾、濕垃圾、有害垃圾,豬不能吃、豬能吃、豬吃了會(huì)死……你是不是還在為這些垃圾分別是什么而苦惱呢?
要是能自動(dòng)給垃圾分類(lèi)就好了。
Alphabet X,就是之前孵化了無(wú)人車(chē)的Google X,終于造出了垃圾分類(lèi)機(jī)器人。
這些機(jī)器人可以把垃圾分類(lèi)、把分錯(cuò)類(lèi)的垃圾放到正確的地方,還能在辦公室里游走撿垃圾。
比如,放錯(cuò)地方的礦泉水瓶,機(jī)器人可以撿起來(lái)放到正確的地方去:
放錯(cuò)地方的易拉罐,也要讓它和別的罐罐在一起:?
他們?cè)贏lphabet公司的辦公室測(cè)試后,發(fā)現(xiàn)這臺(tái)機(jī)器人可以顯著降低垃圾造成的污染,將本能回收利用卻被送去垃圾填埋場(chǎng)的垃圾占比從20%降到不到5%。
怎么做到的
想讓機(jī)器人學(xué)會(huì)垃圾分類(lèi),需要用到感知、移動(dòng)和操作,借助計(jì)算機(jī)視覺(jué)技術(shù)進(jìn)行感知以及幫助機(jī)器人前行的自動(dòng)駕駛能力都是業(yè)界熟悉的,但如何學(xué)會(huì)在復(fù)雜環(huán)境中用“手”拉開(kāi)柜子、打開(kāi)抽屜、撿走垃圾則是必須要讓機(jī)器自行學(xué)會(huì)的操作。
因此,Alphabet X用到了三個(gè)方法來(lái)讓機(jī)器人學(xué)會(huì)靈活用“手”。
跟人類(lèi)學(xué)習(xí)
第一種是跟人類(lèi)學(xué)習(xí),模仿人類(lèi)的動(dòng)作和做法。
這里就用到了Play-LMP算法,它在沒(méi)有特定數(shù)據(jù)集訓(xùn)練的情況下,讓機(jī)器人跟人類(lèi)的演示學(xué)習(xí),最終實(shí)現(xiàn)平均成功率85.5%。
學(xué)出來(lái)的成績(jī),大概是這樣的,左邊是任務(wù)要求,右邊是執(zhí)行過(guò)程:
跟其他機(jī)器人學(xué)習(xí)
和其他機(jī)器人學(xué)習(xí)是通過(guò)無(wú)模型的強(qiáng)化學(xué)習(xí),讓許多個(gè)機(jī)器人共享經(jīng)驗(yàn)。
具體的實(shí)現(xiàn)方式是這樣的:
讓機(jī)器人學(xué)習(xí)借助門(mén)把手開(kāi)門(mén)這個(gè)技巧,一起學(xué)習(xí)的每個(gè)機(jī)器人都裝了一份神經(jīng)網(wǎng)絡(luò),并且他們每臺(tái)機(jī)器人都連到了一個(gè)中央服務(wù)器上。
每個(gè)機(jī)器人開(kāi)始對(duì)著這個(gè)門(mén)和門(mén)把手琢磨,摸索著考慮怎么開(kāi)。
這個(gè)過(guò)程中,每個(gè)機(jī)器人每一步的行動(dòng)和結(jié)果都被傳輸?shù)奖澈蟮闹醒敕?wù)器上,中央服務(wù)器里的神經(jīng)網(wǎng)絡(luò)就開(kāi)始借助這些傳輸來(lái)的經(jīng)驗(yàn),迭代改進(jìn)神經(jīng)網(wǎng)絡(luò)。
這樣整個(gè)過(guò)程就好像司令部派了幾個(gè)士兵出去偵查,再把每個(gè)士兵送回來(lái)的線(xiàn)索匯總,形成整體的作戰(zhàn)思路,再告訴士兵們應(yīng)該如何如何行動(dòng)。
所以改進(jìn)之后,機(jī)器人們就都學(xué)會(huì)了開(kāi)門(mén)這項(xiàng)技能。
在云端學(xué)習(xí)
機(jī)器人要撿垃圾,必須學(xué)會(huì)靈活的使用自己的“手”來(lái)抓東西,要不斷的練習(xí),有大量數(shù)據(jù)來(lái)訓(xùn)練模型才可以。
現(xiàn)實(shí)世界里,機(jī)器人一天只能練習(xí)5000次抓取,數(shù)據(jù)量是遠(yuǎn)遠(yuǎn)不夠的。
而借助隨機(jī)到規(guī)范適應(yīng)網(wǎng)絡(luò)(Randomized-to-Canonical Adaptation Networks,簡(jiǎn)稱(chēng)RCANs),在云中模擬訓(xùn)練的數(shù)據(jù)就可以用在模型的實(shí)際訓(xùn)練中,這樣機(jī)器人抓物體的成功率就提升到了70%。
之后,再結(jié)合5000次在現(xiàn)實(shí)世界抓取的數(shù)據(jù),對(duì)模型進(jìn)行微調(diào),成功率就到了91%。
這個(gè)過(guò)程,相當(dāng)于在真實(shí)世界抓了58萬(wàn)次的結(jié)果,一下子省了99%的練習(xí)次數(shù)。
這樣,原來(lái)需要花3個(gè)月的時(shí)間來(lái)訓(xùn)練機(jī)器人學(xué)習(xí)抓取,現(xiàn)在只要不到一天就可以了。
開(kāi)發(fā)人員每天觀察機(jī)器人的垃圾分類(lèi)工作,并標(biāo)注正確和錯(cuò)誤。AI程序每晚根據(jù)標(biāo)注內(nèi)容,自動(dòng)模擬更新數(shù)千個(gè)模塊的數(shù)據(jù)。第二天,更新的結(jié)果會(huì)被重新整合到機(jī)器人軟件中,并再次開(kāi)啟新的學(xué)習(xí)周期,日復(fù)一日地改善性能。
經(jīng)數(shù)月學(xué)習(xí),分類(lèi)機(jī)器人的垃圾污染率從20%降至5%。垃圾污染率,即垃圾中混入不正確分類(lèi)物料的比例。
機(jī)器人頭部的視覺(jué)傳感器可掃描環(huán)境并識(shí)別物體,內(nèi)部設(shè)有多個(gè)攝像頭,可使頭部和雙臂獨(dú)立工作。機(jī)器人還會(huì)對(duì)掃描到的物品進(jìn)行顏色編碼,并識(shí)別可能需要移動(dòng)、清理或丟棄的物品。
評(píng)論