毫末的Drive GPT是什么?蹭熱點(diǎn)還是真有料?
前段時(shí)間毫末搞了個(gè)DriveGPT,蹭熱點(diǎn)蹭得讓業(yè)內(nèi)一頓噴。
今天他們正式做了個(gè)發(fā)布,給解釋了下。
一起來(lái)看下。(雖然我沒(méi)有太理解。)
現(xiàn)在自動(dòng)駕駛的技術(shù)難點(diǎn)在于層出不窮的長(zhǎng)尾難題(Corner case)。
背后原因是,目前系統(tǒng)在認(rèn)知各類駕駛場(chǎng)景時(shí),主要靠的還是人工寫規(guī)則。
有多少特殊場(chǎng)景,就用多少規(guī)則來(lái)約束,但始終無(wú)法窮其盡。
為了解決這個(gè)問(wèn)題,業(yè)內(nèi)一直在探索“實(shí)現(xiàn)端到端的自動(dòng)駕駛”——感知數(shù)據(jù)輸入、規(guī)劃決策數(shù)據(jù)輸出,靠神經(jīng)網(wǎng)絡(luò)來(lái)解決。
而毫末覺(jué)得ChatGPT里的GPT,就能為解決問(wèn)題提供幫助。
什么是GPT?2018年,OpenAI這家公司基于Transformer提出了GPT。
GPT的全稱是生成式預(yù)訓(xùn)練Transformer模型,本質(zhì)上是在求解下一個(gè)詞出現(xiàn)的概率,這是它的數(shù)學(xué)原理,每一次調(diào)用都是從概率分布中抽樣并生成一個(gè)詞,這樣不斷地循環(huán),就能生成一連串的字符,用于各種下游任務(wù)。
現(xiàn)在被大家所熟知的ChatGPT就是在這樣一個(gè)模型上進(jìn)化而來(lái)的。但其實(shí)在ChatGPT大火之前,GPT就已經(jīng)用在了其他領(lǐng)域。
比如2021年7月的CodeX,也就是CodeGPT,可以用于代碼生成,提升寫代碼的效率,還有2021年12月發(fā)布的WebGPT,可以讓GPT利用搜索引擎,主動(dòng)搜索結(jié)果并匯總整理出答案,也就是近期微軟發(fā)布的New Bing搜索。
所以,在毫末的定義里,GPT本身是一種非常通用的建模范式,能應(yīng)用的領(lǐng)域非常之多。
特別是在自動(dòng)駕駛領(lǐng)域,由于在公開(kāi)的互聯(lián)網(wǎng)上相關(guān)數(shù)據(jù)幾乎沒(méi)有,所有就會(huì)形成一個(gè)稀有的垂類GPT。
毫末就把他們這個(gè)自動(dòng)駕駛的GPT叫做:DriveGPT雪湖·海若。
參考的是GPT的建模范式。本質(zhì)上Drive GPT定義是自動(dòng)駕駛領(lǐng)域的生成式預(yù)訓(xùn)練Transformer大模型,也是在求解下一個(gè)Token的概率,每一次調(diào)用都相當(dāng)于根據(jù)前序Token序列生成一個(gè)Token,這些Token就相當(dāng)于自然語(yǔ)言處理中的一個(gè)詞語(yǔ),只不過(guò)這里的Token是用來(lái)描述駕駛場(chǎng)景的。
一連串的Token拼在一塊就是一個(gè)完整的駕駛場(chǎng)景時(shí)間序列,包括了未來(lái)某個(gè)時(shí)刻整個(gè)交通環(huán)境的狀態(tài)以及自車的狀態(tài)。
毫末認(rèn)為DriveGPT可以這么用:
?可以按概率生成很多個(gè)這樣的場(chǎng)景序列,每個(gè)場(chǎng)景都是一個(gè)全局的場(chǎng)景,每個(gè)場(chǎng)景序列都是未來(lái)有可能發(fā)生的一種實(shí)際情況。
?在所有場(chǎng)景序列都產(chǎn)生的情況下,能把場(chǎng)景中最關(guān)注的自車行為軌跡給量化出來(lái),也就是生成場(chǎng)景的同時(shí),便會(huì)產(chǎn)生自車未來(lái)的軌跡信息。
?有了這段軌跡之后,毫末希望這條軌跡是可解釋的,而GPT模型最擅長(zhǎng)的領(lǐng)域便是對(duì)話和推理,DriveGPT在生成場(chǎng)景序列、軌跡的同時(shí),也會(huì)把整個(gè)決策邏輯鏈給輸出。
這樣一來(lái),在一個(gè)統(tǒng)一的生成式框架下,DriveGPT就可以做到將規(guī)劃、決策與推理等多個(gè)任務(wù)全部完成。
思路有了,但具體怎么執(zhí)行呢?毫末先講了講火山引擎的算力支持。
(這一部分我選擇略過(guò))
DriveGPT雪湖·海若的一個(gè)關(guān)鍵設(shè)計(jì),就是場(chǎng)景的Token化表達(dá),毫末管這種方式叫做Drive Language。
自然語(yǔ)言中的Token很好理解,就是單字或單詞,中文的Token詞表有5萬(wàn)個(gè)左右。
把Token輸入到模型,輸出則是下一個(gè)字詞的概率,這種概率分布隱藏了語(yǔ)言中的知識(shí)和邏輯,例如:根據(jù)一部偵探小說(shuō)復(fù)雜線索,推理出兇手是誰(shuí)。
Drive Language基于毫末的CSS場(chǎng)景庫(kù)理論,將駕駛空間進(jìn)行離散化處理,每一個(gè)Token都表征場(chǎng)景的一小部分,目前毫末Token的詞表空間是50w個(gè)左右。
如果輸入一連串過(guò)去已經(jīng)發(fā)生的場(chǎng)景Token序列,那模型就可以根據(jù)歷史,去生成未來(lái)所有可能的場(chǎng)景,DriveGPT雪湖·海若就像一部推理機(jī)器,你告訴它過(guò)去發(fā)生了什么,它按概率推理出未來(lái)多個(gè)可能。
(聽(tīng)起來(lái)像是一個(gè)自動(dòng)駕駛場(chǎng)景庫(kù)的標(biāo)簽管理系統(tǒng),給很多場(chǎng)景打上了標(biāo)簽?)
DriveGPT的具體訓(xùn)練過(guò)程毫末講得很簡(jiǎn)單:
?首先根據(jù)駕駛數(shù)據(jù)以及之前定義的駕駛嘗試CSS做一個(gè)大規(guī)模的預(yù)訓(xùn)練。
?然后,通過(guò)一些在使用過(guò)程中接管或者不接管的場(chǎng)景,對(duì)預(yù)訓(xùn)練的結(jié)果進(jìn)行打分和排序,再用強(qiáng)化學(xué)習(xí)的思路,把反饋模型認(rèn)為好的結(jié)果排上來(lái),差的結(jié)果排下去,最后把參數(shù)更新到一個(gè)備份模型(Active Model)中。
?整個(gè)迭代流程中利用了大量的接管或者不接管的數(shù)據(jù),這些數(shù)據(jù)中隱藏了不同場(chǎng)景下錯(cuò)誤的自動(dòng)駕駛開(kāi)法與正確的人類開(kāi)法。
預(yù)訓(xùn)練是怎么搞的?在預(yù)訓(xùn)練模型上,毫末從encoder+decoder的結(jié)構(gòu),調(diào)整為Decodeonly結(jié)構(gòu)的GPT模型,其中每一個(gè)Token就是剛才提到的Drive Language,用于描述某時(shí)刻的場(chǎng)景狀態(tài),包括障礙物的狀態(tài)、自車狀態(tài)、車道線情況等等。
預(yù)訓(xùn)練模型使用了1200億個(gè)參數(shù)的大模型(是個(gè)感知模型?),使用4000萬(wàn)量產(chǎn)車駕駛數(shù)據(jù)訓(xùn)練(這些數(shù)據(jù)都有哪些維度?)。
模型本身能夠?qū)Ω鞣N場(chǎng)景做生成式任務(wù),但這些生成結(jié)果還需要按照人類偏好去調(diào)優(yōu),在安全、高效、舒適等維度上做出取舍。
(從下面實(shí)驗(yàn)結(jié)果的圖片來(lái)看,生成的是規(guī)劃路徑?)
接下來(lái)毫末用部分經(jīng)過(guò)篩選的人類接管數(shù)據(jù),大概5萬(wàn)個(gè)Clips去做反饋模型的訓(xùn)練。
(在毫末的定義里,clip就是一個(gè)個(gè)場(chǎng)景)
反饋模型的樣本使用了這部分實(shí)車的接管數(shù)據(jù),這些數(shù)據(jù)經(jīng)過(guò)預(yù)訓(xùn)練模型后,可以生成出多種結(jié)果,假設(shè)是A、B、C、D四個(gè)結(jié)果,這四種結(jié)果都是機(jī)器生成的,可以用人駕接管數(shù)據(jù)去做一個(gè)Grading打分模塊,用這個(gè)模塊對(duì)四個(gè)結(jié)果做評(píng)分,這樣就能產(chǎn)生一組帶有偏序關(guān)系的Pair樣本對(duì),即C>A、C>B、D>A、D>B。
(對(duì)規(guī)劃路徑做打分?)
有了偏序?qū)χ螅涂梢杂肔TR(Learning To Rank)的思路去訓(xùn)練反饋模型(Reward Model)。
毫末說(shuō),這樣相當(dāng)于是把影子模式從車端轉(zhuǎn)到云端,規(guī)模更大,效果更強(qiáng)。
如何保證可解釋性?一般基于神經(jīng)網(wǎng)絡(luò)的規(guī)劃都有不確定性和不可解釋性,也就是你期待它往左,但它可能會(huì)往右,而且你不知道它為什么會(huì)出錯(cuò)。
毫末DriveGPT的一個(gè)功能是輸出決策邏輯鏈(Chain of Thought)。
在毫末看來(lái),這樣就能讓生成的駕駛策略就具有可解釋性了。
他們利用了prompt提示語(yǔ)技術(shù),輸入端需要給到模型一個(gè)提示,告訴它“要去哪、慢一點(diǎn)還是快一點(diǎn)、并且讓它一步步推理”,經(jīng)過(guò)這種提示后,它就會(huì)朝著期望的方向去生成結(jié)果,并且每個(gè)結(jié)果都帶有決策邏輯鏈。
每個(gè)結(jié)果也會(huì)有未來(lái)出現(xiàn)的可能性。這樣就可以選擇未來(lái)出現(xiàn)可能性最大,最有邏輯的鏈條駕駛策略。
毫末舉了個(gè)例子來(lái)說(shuō)明模型是怎么學(xué)會(huì)邏輯鏈的。
毫末做決策邏輯鏈的靈感來(lái)自于早期設(shè)計(jì)的自動(dòng)駕駛場(chǎng)景庫(kù),場(chǎng)景庫(kù)有幾十萬(wàn)個(gè)細(xì)分場(chǎng)景,每一個(gè)都是自然語(yǔ)言描述的,可理解可解釋。
早期只是對(duì)每一段駕駛數(shù)據(jù)做標(biāo)注,打上這段駕駛過(guò)程屬于哪個(gè)場(chǎng)景,但在做大模型研發(fā)的時(shí)候,毫末忽然發(fā)現(xiàn)如果把一連串的場(chǎng)景串起來(lái),其實(shí)就是一個(gè)完整的可解釋的決策過(guò)程了。
比如左邊視頻是一個(gè)連續(xù)超車變道后抵達(dá)終點(diǎn)Goal的例子,首先會(huì)對(duì)這段數(shù)據(jù)做細(xì)粒度的場(chǎng)景識(shí)別,把完整的超車決策邏輯,拆解為“直行被壓速左變道再直行再右變道超車”等多個(gè)子過(guò)程。
其次,把帶有prompt提示語(yǔ)和完整決策過(guò)程的樣本交給模型去學(xué)習(xí),那模型就能學(xué)到一種推理關(guān)系,即“要快速抵達(dá)路口目標(biāo)處”,需要“先直行,后左右變道超車,再加速直行”,模型通過(guò)大量含有決策邏輯鏈的樣本,就能產(chǎn)生一種推理能力。
下次遇到一個(gè)新的指示,例如:“慢點(diǎn)抵達(dá)地圖上500m處目標(biāo)點(diǎn)”,它就會(huì)生成很多比較“慢”的決策邏輯,有的是“減速跟車”,有的是“路口讓行”,開(kāi)得會(huì)穩(wěn)重一點(diǎn),那如果你換個(gè)prompt提示語(yǔ),比如讓它快一點(diǎn),它又會(huì)重新生成一些“快”的邏輯。
假設(shè)提示模型要“抵達(dá)某個(gè)目標(biāo)點(diǎn)”,這個(gè)提示可能來(lái)自于地圖導(dǎo)航,未來(lái)也可能來(lái)自于語(yǔ)音交互時(shí)人類的語(yǔ)音指示。
那DriveGPT雪湖·海若會(huì)生成很多個(gè)可能的開(kāi)法,有的激進(jìn),會(huì)連續(xù)變道超車,快速抵達(dá)目標(biāo)點(diǎn),有的會(huì)穩(wěn)重一些,跟車行駛到終點(diǎn),這時(shí)候如果提示語(yǔ)里沒(méi)有其他額外指示,那DriveGPT雪湖·海若會(huì)按照反饋訓(xùn)練時(shí)的調(diào)優(yōu)效果,最終給到一個(gè)更符合大部分人駕駛偏好的效果。
(但貌似還是沒(méi)有解決“讓它左變道,但它可能右變道”的問(wèn)題?)
具體怎么用?DriveGPT據(jù)說(shuō)會(huì)有四大應(yīng)用場(chǎng)景,包括智能駕駛、駕駛場(chǎng)景識(shí)別、駕駛行為驗(yàn)證、困難場(chǎng)景脫困。
這次發(fā)布會(huì)后開(kāi)放了“駕駛場(chǎng)景識(shí)別”的場(chǎng)景,合作伙伴可以用。
然而,這個(gè)“駕駛場(chǎng)景識(shí)別”的場(chǎng)景,看起來(lái)就是個(gè)披了個(gè)ChatGPT外衣的自動(dòng)化標(biāo)注平臺(tái)。
倒是很厲害,下面這么黑糊糊的一張照片,居然能標(biāo)注出7輛車、7個(gè)燈、3個(gè)車道線。
除了DriveGPT,會(huì)上我還留意到了一些有趣的點(diǎn):
DriveGPT會(huì)用在最近發(fā)布的新摩卡DHTPHEV上
聽(tīng)到這里,我再一次迷茫了——DriveGPT是指啥。
毫末一共拿了三家主機(jī)廠的訂單
除了長(zhǎng)城,也有了其他車企爸爸了,但不知道三家里有沒(méi)有包括長(zhǎng)城。
2024年城市NOA要落地100個(gè)城市
挺考驗(yàn)的。
這頁(yè)P(yáng)PT里的“捷徑推薦”和“智能陪練”是指什么功能?
自動(dòng)駕駛公司好喜歡起名字
毫末的員工自己能記全嗎?
- 1海爾空氣能故障代碼大全處理方法(如何快速排查空調(diào)故障)
- 2怎么知道燃?xì)獗黼姵貨](méi)電了(三種簡(jiǎn)單判斷方法)
- 3格力故障代E5(格力故障代E5:解析最常見(jiàn)故障及排查方法)
- 4格力空氣能常見(jiàn)故障(格力空氣能常見(jiàn)故障解決方案)
- 5樂(lè)堡保險(xiǎn)柜開(kāi)鎖(樂(lè)堡保險(xiǎn)柜解鎖指南)
- 6富強(qiáng)勝防盜門售后-400全國(guó)免費(fèi)咨詢熱線(“領(lǐng)先防盜門品牌-400全國(guó)熱線,為您提
- 7內(nèi)開(kāi)內(nèi)倒窗戶常見(jiàn)故障維修(如何自行修復(fù)窗戶卡頓、玻璃破損等問(wèn)題)
- 8上海方太燃?xì)庠?4小時(shí)客服熱線(如何快速聯(lián)系并解決問(wèn)題)
- 9立方保險(xiǎn)柜廠家電話(立方保險(xiǎn)柜廠家電話:方便快捷安全的通信方式)
- 10能率燃?xì)庠钍酆笕珖?guó)維修電話號(hào)碼查詢(全國(guó)能率燃?xì)庠钍酆缶S修電話號(hào)碼查詢
-
劉楚昕《泥潭》出版,余華寫推薦語(yǔ)
2025-06-12
-
海南廣東等地迎強(qiáng)勁臺(tái)風(fēng)雨,大范圍高溫將波及十省份
2025-06-12
-
空調(diào)拆裝步驟圖(如何正確拆卸和安裝空調(diào))
2025-06-07


