相比特斯拉的自動駕駛技術(shù),Waymo在訓(xùn)練數(shù)據(jù)上處于明顯劣勢?
如果可以實現(xiàn)的話,自動駕駛將成為我們這個瑰麗的時代最大的商機之一。單在美國,所有汽車每年的駕駛里程就達(dá)到了3.22萬億英里。如果這些里程都是通過自動駕駛駛跑出來,而且自動駕駛服務(wù)供應(yīng)商每英里可以得到10美分的利潤,那么,自動駕駛服務(wù)提供商每年在美國市場就能獲得3220億美元的利潤。正是基于這種邏輯,谷歌旗下的自動駕駛公司Waymo的估值高達(dá)2500億美金。
本文引用地址:http://www.ex-cimer.com/article/201903/398707.htm對于我來說,近期關(guān)于自動駕駛的一個最為吸引人的消息就是Waymo正在其自動駕駛中使用模仿學(xué)習(xí)技術(shù)。模仿學(xué)習(xí)是機器學(xué)習(xí)技術(shù)中的一種,它的神經(jīng)網(wǎng)絡(luò)觀察人類所做的事情,學(xué)習(xí)在某些環(huán)境狀態(tài)下執(zhí)行的動作。通過訓(xùn)練人類行為,神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)到“如果你遇到這種環(huán)境狀態(tài),就模仿人類那樣去執(zhí)行動作吧”。比如,“如果你看到前面有一個停車標(biāo)志,請停下車?!被蛘?,“如果你看到一輛停止?fàn)顟B(tài)的汽車擋了你的路,就這樣慢慢繞開它?!?/p>
Waymo的研究團隊負(fù)責(zé)人Drago Anguelov最近在麻省理工學(xué)院發(fā)表了一次演講,深入探討了這個話題。
Waymo在可以收集大量數(shù)據(jù)時使用模仿學(xué)習(xí)。但是對于Anguelov來說,Waymo的數(shù)據(jù)集中并沒有足夠的訓(xùn)練樣例來進(jìn)行模仿學(xué)習(xí)。在數(shù)據(jù)不足的情況下,它必須依賴手工編碼算法,而無法使用機器學(xué)習(xí)來替代。
根據(jù)推斷,Waymo應(yīng)該已經(jīng)自動駕駛跑了大約1500萬英里。假設(shè)每3000萬英里出現(xiàn)一次需要人類接管自動駕駛系統(tǒng)的情況,自動駕駛系統(tǒng)可以借此模仿的人類行為,那么,按照Waymo現(xiàn)在的行駛里程,它可能還沒有遇到過模仿學(xué)習(xí)的樣例。即便是每100萬英里有一次人類接管行為可供模仿,它也不過只有15個樣例。我不知道對模仿學(xué)習(xí)來說,多少個樣例才能訓(xùn)練出判斷為“真”,但是對于那些進(jìn)行圖像分類的神經(jīng)網(wǎng)絡(luò)來說,一般經(jīng)驗是需要至少一千個樣例才能識別出來一種圖像(比如大白鯊)。顯然,Waymo不可能遭遇過這么多次可供模仿學(xué)習(xí)的樣例。
雖然Anguelov很愿意在人類的駕駛行為中進(jìn)行模仿學(xué)習(xí),但是它并沒有足夠的數(shù)據(jù)樣例。那么,誰有這些數(shù)據(jù)呢?
特斯拉有這些數(shù)據(jù)。據(jù)估計,搭載了特斯拉最新一代自動駕駛硬件的汽車數(shù)量已經(jīng)超過了40萬輛,所有這些車每天的行駛里程超過1300萬英里。如果汽車數(shù)量增長到100多萬輛時,每月的行駛里程將達(dá)到10億英里。顯然,車輛越多,里程數(shù)也越多,可供模仿學(xué)習(xí)的人類行為樣例也就越多。
The Information的記者Amir Efrati寫道,特斯拉正在利用這些里程中出現(xiàn)的人類行為進(jìn)行模仿學(xué)習(xí),他引用了至少一位在特斯拉自動駕駛部門工作的未具名消息人士的說法:
“知情人士表示,特斯拉的汽車手機了大量的攝像頭數(shù)據(jù)和來自其它各類傳感器的數(shù)據(jù),當(dāng)特斯拉車主開車時,即使他們沒有啟用車輛的自動駕駛系統(tǒng),自動駕駛研究團隊也可以檢查人類在各種駕駛場景中的行為并模仿它。特斯拉的工程師認(rèn)為,將足夠多的人類駕駛行為數(shù)據(jù)輸入到神經(jīng)網(wǎng)絡(luò)中,神經(jīng)網(wǎng)絡(luò)便可以學(xué)習(xí)如何在大多數(shù)情況下進(jìn)行正確轉(zhuǎn)向、加速或者制動。一位團隊成員表示,特斯拉車主的日常駕駛會產(chǎn)生足夠多的數(shù)據(jù),“你不需要其它任何東西”來教系統(tǒng)如何自動駕駛。”
特斯拉官方還沒有證實這種說法,但是其首席執(zhí)行官埃隆馬斯克最近在ARK Invest的一次采訪中發(fā)表了一些評論,可能就是針對模仿學(xué)習(xí)的表態(tài),在采訪中有一句話值得注意:
“我認(rèn)為我們特斯拉有一個別人很難超越的優(yōu)勢,那就是我們擁有大量的人工干預(yù)駕駛行為數(shù)據(jù)??梢赃@樣認(rèn)為,車主自己正在訓(xùn)練自動駕駛系統(tǒng)如何駕駛汽車。駕駛中有大量的模糊和奇怪的場景,你肯定都想不到。。?!?/p>
還有其它的表態(tài):
“每一次有人干預(yù)駕駛,即接管了自動駕駛系統(tǒng)之后,我們的自動駕駛系統(tǒng)便會保存這些信息并將其上傳到我們的系統(tǒng)里。我們真的開始變得非常擅長訓(xùn)練系統(tǒng),甚至不需要人為輸入訓(xùn)練數(shù)據(jù)、標(biāo)記人工標(biāo)簽了。基本上,當(dāng)一個駕駛員駛過一個交叉路口時,他就會訓(xùn)練自動駕駛系統(tǒng)應(yīng)該怎么做?!?/p>
當(dāng)然你可以認(rèn)為馬斯克的表態(tài)含糊不清,有多種可能的解釋。但是對于我來說,我認(rèn)為模仿學(xué)習(xí)和馬斯克所說的東西最為吻合。
要進(jìn)行模仿學(xué)習(xí),特斯拉不需要上傳視頻等任何原始傳感器數(shù)據(jù),它直接上傳感知型神經(jīng)網(wǎng)絡(luò)對其所看到的場景和駕駛員行為的判斷。特斯拉一位名叫g(shù)reentheonly的黑客可視化地展現(xiàn)了在特斯拉上運行的神經(jīng)網(wǎng)絡(luò)所做出的這種感知判斷:
首先,表示“駕駛場景”的可視化信息包括車輛周圍的3D形式邊界、表示車輛類型和距離的文本標(biāo)簽以及顯示可行車道的“綠色地毯”。
要進(jìn)行模仿學(xué)習(xí),需要將人類駕駛員對方向盤和踏板的動作數(shù)據(jù)和可視化的“駕駛場景”信息進(jìn)行配對。這些狀態(tài)-動作配對不需要人類的注釋,人類進(jìn)行標(biāo)記實在是過于昂貴而且緩慢的學(xué)習(xí)過程。他們只需要上傳到特斯拉的服務(wù)器,然后就可以用來訓(xùn)練神經(jīng)網(wǎng)絡(luò)了。
除了Waymo對模仿學(xué)習(xí)技術(shù)的背書和特斯拉含混其詞的表述,我們還有什么理由相信模仿學(xué)習(xí)可以訓(xùn)練神經(jīng)網(wǎng)絡(luò)來執(zhí)行復(fù)雜的任務(wù)呢?對于我來說,成功實施了模仿學(xué)習(xí)的最典型案例是AlphaStar,這是由Alphabet的子公司DeepMind創(chuàng)建的一個神經(jīng)網(wǎng)絡(luò)。DeepMind使用模仿學(xué)習(xí)來訓(xùn)練AlphaStar玩一個有數(shù)百萬人類玩家的星際爭霸游戲。星際爭霸是一款相當(dāng)復(fù)雜的游戲,里面設(shè)計長遠(yuǎn)規(guī)劃、高級戰(zhàn)略部署和對軍事單位的實施戰(zhàn)術(shù)控制,這樣一個燒腦的游戲?qū)τ贏I來說是一個相當(dāng)艱難的挑戰(zhàn)。但是,AlphaStar僅使用了模仿學(xué)習(xí)技術(shù),就通過在星際爭霸這個游戲的排名證明了相當(dāng)于人類玩家的實力,達(dá)到了DeepMind估計的性能指標(biāo)。換句話說,AlphaStar使用模仿學(xué)習(xí)技術(shù),在星際爭霸中達(dá)到了中等人類技能水準(zhǔn)。
和DeepMind使用模仿學(xué)習(xí)訓(xùn)練其神經(jīng)網(wǎng)絡(luò)玩星際爭霸游戲一樣,在自主駕駛的訓(xùn)練中,特斯拉利用其車輛自主駕駛系統(tǒng)上傳的數(shù)百萬駕駛場景-駕駛行為配對數(shù)據(jù)訓(xùn)練神經(jīng)網(wǎng)絡(luò),就可以達(dá)到中等水平人類駕駛員的水準(zhǔn)。駕駛行為當(dāng)然很復(fù)雜,但是星際爭霸游戲也很復(fù)雜。所以我不認(rèn)為使用模仿學(xué)習(xí)達(dá)到的自主駕駛效果達(dá)不到AlphaStar玩星際爭霸的程度。
要想使模仿學(xué)習(xí)奏效,一個非常重要的條件就是感知必須正確。如果特斯拉的感知神經(jīng)網(wǎng)絡(luò)出了錯,系統(tǒng)將無法識別駕駛環(huán)境的真實狀態(tài),也就無法獲得正確的駕駛場景-駕駛行為配對。舉個例子,如果感知神經(jīng)網(wǎng)絡(luò)將紅色交通信號燈錯認(rèn)成了綠色,它觀察人類停在了這樣一個信號燈前面,它就會得出一個汽車應(yīng)該停在綠色交通燈處的錯誤結(jié)論。即使它學(xué)會了如何對一個環(huán)境進(jìn)行正確反應(yīng),它也需要檢測出這些環(huán)境。因此,如果它知道紅燈停綠燈行,它還必須準(zhǔn)確地識別出信號燈的顏色才能做出正確的響應(yīng)。系統(tǒng)需要準(zhǔn)確地感知環(huán)境以便學(xué)習(xí)要做什么動作,而且必須準(zhǔn)確地感知環(huán)境才能應(yīng)用學(xué)習(xí)成果做出這些動作。
特斯拉新的神經(jīng)網(wǎng)絡(luò)計算機可以解決環(huán)境感知問題,被稱為Hardware 3。特斯拉人工智能主管Andrej Karpathy說,特斯拉已經(jīng)“訓(xùn)練了效果很好的大型神經(jīng)網(wǎng)絡(luò)”,但是“由于計算性能的約束無法把它們部署到汽車中”?,F(xiàn)在有了Hardware 3,特斯拉將能夠運行規(guī)模更大、更為準(zhǔn)確的感知神經(jīng)網(wǎng)絡(luò)。
對于Waymo這樣無法獲得大量行駛車輛數(shù)據(jù)的公司而言,很難在模擬學(xué)習(xí)上找到可以走下去的路來。由于沒有足夠的訓(xùn)練樣例來完成整個駕駛?cè)蝿?wù)的模仿學(xué)習(xí),它不得不依賴手工編碼算法。在計算機視覺應(yīng)用中,手工編碼算法這種方式早已被神經(jīng)網(wǎng)絡(luò)完全淘汰,機器翻譯應(yīng)用也是如此。對于像星際爭霸這樣復(fù)雜級別的游戲而言,手工編碼的機器人不可能接近AlphaStar這樣的神經(jīng)網(wǎng)絡(luò)的性能。在自主駕駛上,神經(jīng)網(wǎng)絡(luò)方法似乎也比手工編碼算法更有前途。
想推進(jìn)模仿學(xué)習(xí),Waymo必須將其訓(xùn)練車隊的數(shù)量擴大好幾個數(shù)量級。一個可行的方法是,Waymo可以向汽車制造商出售高級駕駛輔助系統(tǒng),并通過它來收集數(shù)據(jù),就像特斯拉現(xiàn)在的做法一樣。這就要求Waymo打造一個比自主駕駛的功能涵蓋范圍更小的精簡型新產(chǎn)品。這個新系統(tǒng)必須在沒有激光雷達(dá)的情況下能夠使用,或者至少不需要那種通常用于自主駕駛汽車的高范圍、高分辨率的激光雷達(dá)。因為這種激光雷達(dá)成本過高,不可能普及到消費級的車輛中。如果這種方式意味著Waymo可以獲取到所有的駕駛數(shù)據(jù)的話,汽車制造商可能不大愿意這么做。所以,Waymo可能需要以某種方式和汽車制造商分享成果,也許它可以同意汽車制造商合作伙伴分享未來的自主駕駛服務(wù)的收入,或者允許合作伙伴購買它的大量股權(quán)。
對于福特和通用這樣的巨頭來說,他們傾向于垂直整合,不大可能建立這種合作關(guān)系。我可以花10億美元小錢購買自己的“Waymo”,干嘛和谷歌的Waymo合作呢?從經(jīng)濟學(xué)原理上來說,可以購買自主駕駛初創(chuàng)公司,這會讓W(xué)aymo處于艱難的談判地位。而且,這些汽車制造商似乎并沒有他們的汽車收集訓(xùn)練數(shù)據(jù)。
兩相比較下來,特斯拉完全占了上風(fēng)。出于這個原因,我認(rèn)為特斯拉更有可能分走現(xiàn)在市場上分配給Waymo的1000多億美元估值。也許完全自主駕駛永遠(yuǎn)不可能實現(xiàn),那就不用說了。但是如果真的實現(xiàn)了,這個市場可能價值三萬億美金。據(jù)我所知,在這個賽道上,特斯拉比Waymo以及所有其他公司都處于更有利的位置上,特斯拉可以憑借在模仿學(xué)習(xí)上的優(yōu)勢分走很大很大一塊蛋糕。
評論