深度學(xué)習(xí)來(lái)助陣,無(wú)人駕駛攻克三大識(shí)別技術(shù)不在話(huà)下
深度學(xué)習(xí)在無(wú)人駕駛領(lǐng)域主要用于圖像處理,也就是攝像頭上面。當(dāng)然也可以用于雷達(dá)的數(shù)據(jù)處理,但是基于圖像極大豐富的信息以及難以手工建模的特性,深度學(xué)習(xí)能最大限度的發(fā)揮其優(yōu)勢(shì)。
本文引用地址:http://www.ex-cimer.com/article/201706/350480.htm
現(xiàn)在介紹一下全球攝像頭領(lǐng)域的巨擘,以色列的mobileye公司是怎么在他們的產(chǎn)品中運(yùn)用深度學(xué)習(xí)的。 深度學(xué)習(xí)可以用于感知,識(shí)別周?chē)h(huán)境,各種對(duì)車(chē)輛有用的信息;也可以用于決策,比如AlphaGo的走子網(wǎng)絡(luò)(Policy Network),就是直接用DNN訓(xùn)練, 如何基于當(dāng)前狀態(tài)作出決策。
環(huán)境識(shí)別方面,mobileye把他們識(shí)別方面的工作主要分為三部分,物體識(shí)別,可行駛區(qū)域檢測(cè),行駛路徑識(shí)別。
物體識(shí)別
一般的物體識(shí)別是這樣子的:
有一個(gè)長(zhǎng)方形框框能識(shí)別出來(lái)車(chē)在哪里,很好,很不錯(cuò),但是Mobileye出來(lái)的是這樣子的:
以及這樣子的:
很明顯的區(qū)別就是Mobileye可以實(shí)現(xiàn)非常準(zhǔn)確的車(chē)的正面以及側(cè)面的檢測(cè),以及完全正確的區(qū)分左邊側(cè)面以及右邊側(cè)面(黃色和藍(lán)色)。
這兩種檢測(cè)結(jié)果的信息量是完全不同的,左邊這個(gè)檢測(cè)結(jié)果告訴我們什么位置大概有一輛車(chē),但是他的具體位置,車(chē)的朝向信息完全沒(méi)有。但是從右邊的檢測(cè)結(jié)果,就可以相對(duì)精確的估算出來(lái)車(chē)的位置,行駛方向等重要信息,跟我們?nèi)丝吹胶罂梢酝茰y(cè)的信息差不多了。
這樣出眾的結(jié)果,對(duì)于較近距離的車(chē),用其他基于幾何的方法,多跟蹤幾幀,可能可以做到接近的效果,但是留意遠(yuǎn)處很小的車(chē),結(jié)果也完全正確,這就只可能是深度學(xué)習(xí)的威力了。可惜Mobileye創(chuàng)始人兼CTO總愛(ài)四處顯擺他們技術(shù)怎么怎么牛,之前也常發(fā)論文共享一些技術(shù),但是在車(chē)輛識(shí)別怎么建模神經(jīng)網(wǎng)絡(luò)可以輸出這么精確帶orientation的bounding box,他只是微微一笑,說(shuō)這里面有很多tricks……可行駛區(qū)域(free space)檢測(cè)深度學(xué)習(xí)以前的可行駛區(qū)域檢測(cè),有兩種方法,一是基于雙目攝像頭立體視覺(jué)或者Structure from motion, 二是基于局部特征,馬爾科夫場(chǎng)之類(lèi)的圖像分割。結(jié)果是這樣的:
綠色部分是可行駛區(qū)域檢測(cè),看著還不錯(cuò)對(duì)不對(duì)? 但是注意左邊的綠色部分涵蓋了馬路“倒鴨子”以及人行道部分,因?yàn)?ldquo;倒鴨子”也就比路面高十厘米左右, 靠立體視覺(jué)是很難跟馬路區(qū)分開(kāi)來(lái)的。而傳統(tǒng)的圖像分割也很困難,因?yàn)榫植刻卣魃希?ldquo;倒鴨子”上和路面的顏色極其接近。區(qū)分二者需要對(duì)環(huán)境整個(gè)context的綜合理解。
自從有了深度學(xué)習(xí)可以做scene understanding之后,這個(gè)問(wèn)題終于被攻克了:
綠色部分還是可行駛區(qū)域,馬路右邊的路肩跟路面的高度相差無(wú)幾,顏色texture也是一模一樣,用立體視覺(jué)的方法不可能區(qū)分開(kāi)來(lái)。
而且不僅僅可行駛區(qū)域的邊界準(zhǔn)確檢測(cè)出來(lái)了,連為什么是邊界的原因也可以檢測(cè)出來(lái):
紅色表示是物體跟道路的邊界,鼠標(biāo)位置那里表示的是Guard rail(護(hù)欄),而上一張圖應(yīng)該是Flat。這樣在正常情況下知道哪些區(qū)域是可以行駛的,而在緊急情況下,也可以知道哪里是可以沖過(guò)去的。
當(dāng)然,相較于第一部分,這一部分的原理是比較清楚的,就是基于深度學(xué)習(xí)的scene understanding。學(xué)術(shù)界也有蠻不錯(cuò)的結(jié)果了,比如下圖(Cambridge的工作),路面跟倒鴨子就分的很好(藍(lán)色跟紫色):
行駛路徑檢測(cè)
這一部分工作要解決的問(wèn)題主要是在沒(méi)有車(chē)輛線或者車(chē)輛線狀況很差的情況下,車(chē)怎么開(kāi)的問(wèn)題。如果所有的路況都如下:
那當(dāng)然很完美,但是由于路況或者天氣,有些時(shí)候車(chē)輛線是很難檢測(cè)到的。
深度學(xué)習(xí)為此提供了一個(gè)解決辦法。我們可以用人在沒(méi)有車(chē)道線的路況下開(kāi)車(chē)的數(shù)據(jù)來(lái)訓(xùn)練神經(jīng)網(wǎng)絡(luò),訓(xùn)練好之后,神經(jīng)網(wǎng)絡(luò)在沒(méi)有車(chē)道線的時(shí)候也能大概判斷未來(lái)車(chē)可以怎么開(kāi)。這一部分原理也是比較清楚的,找一個(gè)人開(kāi)車(chē),把整個(gè)開(kāi)車(chē)的過(guò)程攝像頭的錄像保存下來(lái),把人開(kāi)車(chē)的策略車(chē)輛的行駛路徑也保存下來(lái)。用每一幀圖片作為輸入,車(chē)輛未來(lái)一段時(shí)間(很短的時(shí)間)的路徑作為輸出訓(xùn)練神經(jīng)網(wǎng)絡(luò)。之前很火的Comma公司,黑蘋(píng)果手機(jī)那個(gè)創(chuàng)立的,做的無(wú)人駕駛就是這種思路,因?yàn)槠淇煽啃砸约霸瓌?chuàng)性還被LeCun鄙視了。
結(jié)果如下,可以看到神經(jīng)網(wǎng)絡(luò)提供的行駛路徑基本上符合人類(lèi)的判斷:
更極端的情況:
綠色是預(yù)測(cè)的行駛路徑。沒(méi)有深度學(xué)習(xí),這種場(chǎng)景也是完全不可能的。當(dāng)然,我在最近的另外一個(gè)答案里面提到了,不能完全依靠神經(jīng)網(wǎng)絡(luò)來(lái)做路徑規(guī)劃,Mobileye也是綜合傳統(tǒng)的車(chē)道線檢測(cè),上面提到的場(chǎng)景分割檢測(cè)到的護(hù)欄等,這一部分的神經(jīng)網(wǎng)絡(luò)輸出等等,做信息融合最后得到一個(gè)穩(wěn)定的完美的行駛路徑。
評(píng)論