大模型如何助力自動(dòng)駕駛數(shù)據(jù)閉環(huán)?
生成式AI 大模型進(jìn)入自動(dòng)駕駛系統(tǒng)的速度越來越快了。7 月初的智駕系統(tǒng)發(fā)布會(huì)上,理想汽車推出了全鏈路一體式端到端+ 視覺語言模型的雙系統(tǒng)方案。7 月23 日的科技創(chuàng)新日上,蔚來汽車推出世界模型NWM,雖然尚未量產(chǎn),但也宣誓了蔚來汽車要將生成式AI 大模型搬上車端自動(dòng)駕駛系統(tǒng)的決心。7 月30 日的智駕系統(tǒng)發(fā)布會(huì)上,小鵬汽車宣布全量推送搭載大語言模型技術(shù)的XBrain 與XPlanner、XNet 三網(wǎng)合一的端到端大模型。到了10 月下旬,理想汽車全量推送了接棒分段式端到端無圖NOA 方案的雙系統(tǒng)方案。至此,頭部智駕車企以生成式AI 大模型解決傳統(tǒng)端到端方案缺陷的技術(shù)路線已經(jīng)相當(dāng)明朗了,不過,這并非生成式AI大模型與自動(dòng)駕駛領(lǐng)域的初次相遇,更早之前,世界模型和大語言模型就已經(jīng)用在了自動(dòng)駕駛系統(tǒng)的數(shù)據(jù)閉環(huán)里。
本文引用地址:http://www.ex-cimer.com/article/202412/465475.htm在這樣的語境和事實(shí)下,兩個(gè)值得探討的問題是:大模型為什么能夠用于自動(dòng)駕駛數(shù)據(jù)閉環(huán),大模型又是怎樣助力數(shù)據(jù)閉環(huán)的呢?
圖片來源:地平線
1 數(shù)據(jù)閉環(huán)與大模型的適配
時(shí)代的變遷從來都不是忽如一夜春風(fēng)來,千樹萬樹梨花開,是一天又一天潤物細(xì)無聲的悄然改變,讓你在多日之后回頭一看方驚覺已經(jīng)變了天。自動(dòng)駕駛技術(shù)路線的變遷也像郭德綱成名那樣,并非發(fā)生在具體的哪一天,而是發(fā)生在每一個(gè)夜晚。隨著自動(dòng)駕駛系統(tǒng)中感知定位、決策規(guī)劃和控制模塊的實(shí)現(xiàn)方式由基于規(guī)則的代碼向AI 模型慢慢轉(zhuǎn)變,自動(dòng)駕駛系統(tǒng)開發(fā)范式也從規(guī)則驅(qū)動(dòng)逐漸過渡到了數(shù)據(jù)驅(qū)動(dòng),自動(dòng)駕駛系統(tǒng)越來越依賴數(shù)據(jù)驅(qū)動(dòng),意味著數(shù)據(jù)閉環(huán)對(duì)自動(dòng)駕駛系統(tǒng)越來越關(guān)鍵了。
所謂數(shù)據(jù)閉環(huán),指的是從數(shù)據(jù)采集到存儲(chǔ),到挖掘、標(biāo)注、模型訓(xùn)練,再到仿真驗(yàn)證、集成部署的整個(gè)開發(fā)工作流。數(shù)據(jù)閉環(huán)完成的是對(duì)數(shù)據(jù)價(jià)值的提取工作,其本質(zhì)是將隱藏在一個(gè)又一個(gè)駕駛數(shù)據(jù)片段中的人類駕駛知識(shí)慢慢地乾坤大挪移到自動(dòng)駕駛系統(tǒng)模型的參數(shù)文件里。
圖片來源:輝羲智能
在海量數(shù)據(jù)驅(qū)動(dòng)的端到端大模型時(shí)代。如何高效地采集、處理數(shù)據(jù),如何高效地訓(xùn)練模型并驗(yàn)證模型能力成了決定系統(tǒng)迭代速度的關(guān)鍵。顯然,決定數(shù)據(jù)采集和駛知識(shí)慢慢地乾坤大挪移到自動(dòng)駕駛系統(tǒng)模型的參數(shù)文件里。
在海量數(shù)據(jù)驅(qū)動(dòng)的端到端大模型時(shí)代。如何高效地采集、處理數(shù)據(jù),如何高效地訓(xùn)練模型并驗(yàn)證模型能力成了決定系統(tǒng)迭代速度的關(guān)鍵。顯然,決定數(shù)據(jù)采集和價(jià)值提取效率的數(shù)據(jù)閉環(huán),決定著自動(dòng)駕駛系統(tǒng)能力升級(jí)的效率。提到效率,AI大模型的價(jià)值之一就是變革工作流,提升各個(gè)環(huán)節(jié)的效率,所以,AI大模型順理成章地被各路玩家應(yīng)用到了自動(dòng)駕駛的數(shù)據(jù)閉環(huán)里。
圖片來源:華為
在《技術(shù)的本質(zhì)》一書里,作者鮮明地指出,技術(shù)方案的一端連著用戶需求,另一端連著技術(shù)的能力。將這種認(rèn)知方法論套用過來,對(duì)于自動(dòng)駕駛數(shù)據(jù)閉環(huán)而言,鏈條的一端是目的或需求,數(shù)據(jù)閉環(huán)的需求在于數(shù)據(jù)標(biāo)注和挖掘、模型訓(xùn)練和仿真,鏈接的另一端是能夠達(dá)到目的或滿足需求的技術(shù)能力,大模型的技術(shù)能力在于帶來了兩個(gè)關(guān)鍵能力的根本性提升:超強(qiáng)的理解能力和超強(qiáng)的生成能力。
所以,就大模型的技術(shù)能力和自動(dòng)駕駛數(shù)據(jù)閉環(huán)需求的匹配而言,大模型超強(qiáng)的理解能力可以滿足數(shù)據(jù)標(biāo)注、場景挖掘的需求,其超強(qiáng)的生成能力可以滿足用于模型訓(xùn)練與仿真的場景重建和生成。那么,展開來講,大模型是如何加持自動(dòng)駕駛數(shù)據(jù)閉環(huán)的數(shù)據(jù)標(biāo)注、場景挖掘、場景重建和生成的呢?
2 大模型賦能數(shù)據(jù)標(biāo)注和場景挖掘
數(shù)據(jù)標(biāo)注的主要作用在于從原始圖像、雷達(dá)數(shù)據(jù)中生成精標(biāo)數(shù)據(jù),通過精確標(biāo)注的數(shù)據(jù)構(gòu)建模型的訓(xùn)練集、驗(yàn)證集和測試集,用于自動(dòng)駕駛模型的訓(xùn)練和評(píng)估。具體而言,在自動(dòng)駕駛模型的訓(xùn)練中,通過精標(biāo)訓(xùn)練數(shù)據(jù)集提供的真值和模型輸出做對(duì)比,計(jì)算損失函數(shù),再以反向傳播的方式更新模型的參數(shù),使得模型輸出可以愈來愈逼近訓(xùn)練數(shù)據(jù)的真值。在自動(dòng)駕駛模型的性能評(píng)估和驗(yàn)證中,通過標(biāo)注數(shù)據(jù)構(gòu)建驗(yàn)證集和測試集,將模型預(yù)測結(jié)果與標(biāo)注的真實(shí)結(jié)果作比較,評(píng)估模型的性能。
圖片來源:高通
場景挖掘的主要作用是搜索或檢索帶有相似語義標(biāo)簽的場景數(shù)據(jù),在模型訓(xùn)練階段,通過特定場景庫的訓(xùn)練讓自動(dòng)駕駛模型學(xué)習(xí)該類場景的特征,提升在該類場景下的感知、決策準(zhǔn)確性和泛化能力。在模型驗(yàn)證和評(píng)估階段,通過場景挖掘構(gòu)建測試場景庫,驗(yàn)證模型是否可以有效應(yīng)對(duì)此類場景。如果拿日常生活片段做類比,數(shù)據(jù)標(biāo)注是將所有衣物都進(jìn)行清洗,場景挖掘則是建立一個(gè)又一個(gè)帶標(biāo)簽的小抽屜,把這些衣物分門別類地放在了小抽屜里。
圖片來源:特斯拉
早在幾年前,頭部玩家們就已經(jīng)借助AI 能力實(shí)現(xiàn)了自動(dòng)標(biāo)注,相較于傳統(tǒng)的人工標(biāo)注,自動(dòng)標(biāo)注的效率提高了幾個(gè)數(shù)量級(jí)。
大模型問世之后,通過海量數(shù)據(jù)的預(yù)訓(xùn)練和精標(biāo)數(shù)據(jù)的精調(diào)訓(xùn)練,具有圖文理解能力的大模型可以進(jìn)一步提高標(biāo)注的速度和準(zhǔn)確性。更為難得的是,為了挑戰(zhàn)OpenAI,部分大模型頭部玩家采用了開源的戰(zhàn)略,使得自動(dòng)駕駛行業(yè)的從業(yè)者們可以奉行拿來主義,近乎于直接采用具備精確標(biāo)注能力的開源大模型進(jìn)行數(shù)據(jù)標(biāo)注。
圖片來源:一汽紅旗
大模型對(duì)場景挖掘的加持主要得益于圖文大模型的場景理解能力。借助之前那個(gè)小抽屜的比喻,場景挖掘的核心工作是給視頻片段打標(biāo)簽、做分類,大模型具備超強(qiáng)的語義理解能力,可以代替人工打標(biāo)簽,以極高的效率完成對(duì)海量視頻片段的處理。
圖片來源:百度
3 大模型賦能場景重建和生成
自動(dòng)駕駛系統(tǒng)能力提升的過程是覆蓋一個(gè)又一個(gè)長尾場景的過程。長尾場景遵循動(dòng)態(tài)的定義,因人而異,因時(shí)而異,對(duì)比亞迪智駕系統(tǒng)成立的長尾場景對(duì)華為ADS和小鵬XNGP不一定成立,對(duì)半年前的智駕系統(tǒng)成立的長尾場景對(duì)今天的智駕系統(tǒng)也未必成立。簡而言之,系統(tǒng)處理不了的都是長尾場景,處理得了,無論場景有多么復(fù)雜,也不再稱其為長尾場景。
雖然現(xiàn)實(shí)世界千奇百怪,但是,大部分人過的都是一個(gè)又一個(gè)平平淡淡的日子,換言之,通過真實(shí)車輛收集駕駛長尾場景的速度實(shí)在太慢了。根據(jù)頭部智駕方案供應(yīng)商Momenta的估計(jì),自動(dòng)駕駛系統(tǒng)要達(dá)到L4 等級(jí),需要1,000 億公里的累計(jì)駕駛里程才能收集完罕見長尾問題。目前,國內(nèi)累計(jì)智駕里程最多的理想汽車?yán)塾?jì)里程也不過才25億公里,和1000億公里還有著遠(yuǎn)超十萬八千里的差距。
既然通過真實(shí)車輛收集長尾場景的時(shí)間太漫長,那么,秉持“有困難要上,沒有困難創(chuàng)造困難也要上”的態(tài)度,可以以虛擬仿真和數(shù)字孿生的方式制造長尾場景,利用大模型的生成能力將Corner case 變成小case。具體的,首先通過3D 高斯濺射或Nerf 神經(jīng)輻射場重建駕駛場景,然后利用大模型的生成能力對(duì)重建的駕駛場景做泛化,做數(shù)據(jù)增強(qiáng),生成各種天氣、光照、交通參與者下的長尾場景。
圖片來源:地平線
寫在最后
過去領(lǐng)跑自動(dòng)駕駛賽道的玩家更早地布局自動(dòng)駕駛數(shù)據(jù)閉環(huán)的建設(shè),再加上代表自動(dòng)駕駛最新技術(shù)路線的端到端更加依賴數(shù)據(jù)驅(qū)動(dòng),所以,雖然大模型對(duì)各家自動(dòng)駕駛數(shù)據(jù)閉環(huán)的各個(gè)階段都能有所助益,但是,從大模型這個(gè)大家伙那里獲得最大收益的,依然是頭部玩家華為、特斯拉、蔚小理!
圖片來源:Momenta
(注:本文來源于《EEPW》202412)
評(píng)論