當前位置：主頁 > 空氣能 > 維修資訊 >

毫末的Drive GPT是什么？蹭熱點還是真有料？

發布日期：2023-04-11 22:50:59 瀏覽：

前段時間毫末搞了個DriveGPT，蹭熱點蹭得讓業內一頓噴。

今天他們正式做了個發布，給解釋了下。

一起來看下。（雖然我沒有太理解。）

現在自動駕駛的技術難點在于層出不窮的長尾難題（Corner case）。

背后原因是，目前系統在認知各類駕駛場景時，主要靠的還是人工寫規則。

有多少特殊場景，就用多少規則來約束，但始終無法窮其盡。

為了解決這個問題，業內一直在探索“實現端到端的自動駕駛”——感知數據輸入、規劃決策數據輸出，靠神經網絡來解決。

而毫末覺得ChatGPT里的GPT，就能為解決問題提供幫助。

什么是GPT？

2018年，OpenAI這家公司基于Transformer提出了GPT。

GPT的全稱是生成式預訓練Transformer模型，本質上是在求解下一個詞出現的概率，這是它的數學原理，每一次調用都是從概率分布中抽樣并生成一個詞，這樣不斷地循環，就能生成一連串的字符，用于各種下游任務。

現在被大家所熟知的ChatGPT就是在這樣一個模型上進化而來的。但其實在ChatGPT大火之前，GPT就已經用在了其他領域。

比如2021年7月的CodeX，也就是CodeGPT，可以用于代碼生成，提升寫代碼的效率，還有2021年12月發布的WebGPT，可以讓GPT利用搜索引擎，主動搜索結果并匯總整理出答案，也就是近期微軟發布的New Bing搜索。

所以，在毫末的定義里，GPT本身是一種非常通用的建模范式，能應用的領域非常之多。

特別是在自動駕駛領域，由于在公開的互聯網上相關數據幾乎沒有，所有就會形成一個稀有的垂類GPT。

毫末就把他們這個自動駕駛的GPT叫做：DriveGPT雪湖·海若。

參考的是GPT的建模范式。

本質上Drive GPT定義是自動駕駛領域的生成式預訓練Transformer大模型，也是在求解下一個Token的概率，每一次調用都相當于根據前序Token序列生成一個Token，這些Token就相當于自然語言處理中的一個詞語，只不過這里的Token是用來描述駕駛場景的。

一連串的Token拼在一塊就是一個完整的駕駛場景時間序列，包括了未來某個時刻整個交通環境的狀態以及自車的狀態。

毫末認為DriveGPT可以這么用：

?可以按概率生成很多個這樣的場景序列，每個場景都是一個全局的場景，每個場景序列都是未來有可能發生的一種實際情況。

?在所有場景序列都產生的情況下，能把場景中最關注的自車行為軌跡給量化出來，也就是生成場景的同時，便會產生自車未來的軌跡信息。

?有了這段軌跡之后，毫末希望這條軌跡是可解釋的，而GPT模型最擅長的領域便是對話和推理，DriveGPT在生成場景序列、軌跡的同時，也會把整個決策邏輯鏈給輸出。

這樣一來，在一個統一的生成式框架下，DriveGPT就可以做到將規劃、決策與推理等多個任務全部完成。

思路有了，但具體怎么執行呢？

毫末先講了講火山引擎的算力支持。

（這一部分我選擇略過）

DriveGPT雪湖·海若的一個關鍵設計，就是場景的Token化表達，毫末管這種方式叫做Drive Language。

自然語言中的Token很好理解，就是單字或單詞，中文的Token詞表有5萬個左右。

把Token輸入到模型，輸出則是下一個字詞的概率，這種概率分布隱藏了語言中的知識和邏輯，例如：根據一部偵探小說復雜線索，推理出兇手是誰。

Drive Language基于毫末的CSS場景庫理論，將駕駛空間進行離散化處理，每一個Token都表征場景的一小部分，目前毫末Token的詞表空間是50w個左右。

如果輸入一連串過去已經發生的場景Token序列，那模型就可以根據歷史，去生成未來所有可能的場景，DriveGPT雪湖·海若就像一部推理機器，你告訴它過去發生了什么，它按概率推理出未來多個可能。

（聽起來像是一個自動駕駛場景庫的標簽管理系統，給很多場景打上了標簽？）

DriveGPT的具體訓練過程毫末講得很簡單：

?首先根據駕駛數據以及之前定義的駕駛嘗試CSS做一個大規模的預訓練。

?然后，通過一些在使用過程中接管或者不接管的場景，對預訓練的結果進行打分和排序，再用強化學習的思路，把反饋模型認為好的結果排上來，差的結果排下去，最后把參數更新到一個備份模型（Active Model）中。

?整個迭代流程中利用了大量的接管或者不接管的數據，這些數據中隱藏了不同場景下錯誤的自動駕駛開法與正確的人類開法。

預訓練是怎么搞的？

在預訓練模型上，毫末從encoder+decoder的結構，調整為Decodeonly結構的GPT模型，其中每一個Token就是剛才提到的Drive Language，用于描述某時刻的場景狀態，包括障礙物的狀態、自車狀態、車道線情況等等。

預訓練模型使用了1200億個參數的大模型（是個感知模型？），使用4000萬量產車駕駛數據訓練（這些數據都有哪些維度？）。

模型本身能夠對各種場景做生成式任務，但這些生成結果還需要按照人類偏好去調優，在安全、高效、舒適等維度上做出取舍。

（從下面實驗結果的圖片來看，生成的是規劃路徑？）

強化學習又是怎么搞的？

接下來毫末用部分經過篩選的人類接管數據，大概5萬個Clips去做反饋模型的訓練。

（在毫末的定義里，clip就是一個個場景）

反饋模型的樣本使用了這部分實車的接管數據，這些數據經過預訓練模型后，可以生成出多種結果，假設是A、B、C、D四個結果，這四種結果都是機器生成的，可以用人駕接管數據去做一個Grading打分模塊，用這個模塊對四個結果做評分，這樣就能產生一組帶有偏序關系的Pair樣本對，即C>A、C>B、D>A、D>B。

（對規劃路徑做打分？）

有了偏序對之后，就可以用LTR（Learning To Rank）的思路去訓練反饋模型（Reward Model）。

毫末說，這樣相當于是把影子模式從車端轉到云端，規模更大，效果更強。

如何保證可解釋性？

一般基于神經網絡的規劃都有不確定性和不可解釋性，也就是你期待它往左，但它可能會往右，而且你不知道它為什么會出錯。

毫末DriveGPT的一個功能是輸出決策邏輯鏈（Chain of Thought）。

在毫末看來，這樣就能讓生成的駕駛策略就具有可解釋性了。

他們利用了prompt提示語技術，輸入端需要給到模型一個提示，告訴它“要去哪、慢一點還是快一點、并且讓它一步步推理”，經過這種提示后，它就會朝著期望的方向去生成結果，并且每個結果都帶有決策邏輯鏈。

每個結果也會有未來出現的可能性。這樣就可以選擇未來出現可能性最大，最有邏輯的鏈條駕駛策略。

毫末舉了個例子來說明模型是怎么學會邏輯鏈的。

毫末做決策邏輯鏈的靈感來自于早期設計的自動駕駛場景庫，場景庫有幾十萬個細分場景，每一個都是自然語言描述的，可理解可解釋。

早期只是對每一段駕駛數據做標注，打上這段駕駛過程屬于哪個場景，但在做大模型研發的時候，毫末忽然發現如果把一連串的場景串起來，其實就是一個完整的可解釋的決策過程了。

比如左邊視頻是一個連續超車變道后抵達終點Goal的例子，首先會對這段數據做細粒度的場景識別，把完整的超車決策邏輯，拆解為“直行被壓速左變道再直行再右變道超車”等多個子過程。

其次，把帶有prompt提示語和完整決策過程的樣本交給模型去學習，那模型就能學到一種推理關系，即“要快速抵達路口目標處”，需要“先直行，后左右變道超車，再加速直行”，模型通過大量含有決策邏輯鏈的樣本，就能產生一種推理能力。

下次遇到一個新的指示，例如：“慢點抵達地圖上500m處目標點”，它就會生成很多比較“慢”的決策邏輯，有的是“減速跟車”，有的是“路口讓行”，開得會穩重一點，那如果你換個prompt提示語，比如讓它快一點，它又會重新生成一些“快”的邏輯。

假設提示模型要“抵達某個目標點”，這個提示可能來自于地圖導航，未來也可能來自于語音交互時人類的語音指示。

那DriveGPT雪湖·海若會生成很多個可能的開法，有的激進，會連續變道超車，快速抵達目標點，有的會穩重一些，跟車行駛到終點，這時候如果提示語里沒有其他額外指示，那DriveGPT雪湖·海若會按照反饋訓練時的調優效果，最終給到一個更符合大部分人駕駛偏好的效果。

（但貌似還是沒有解決“讓它左變道，但它可能右變道”的問題？）

具體怎么用？

DriveGPT據說會有四大應用場景，包括智能駕駛、駕駛場景識別、駕駛行為驗證、困難場景脫困。

這次發布會后開放了“駕駛場景識別”的場景，合作伙伴可以用。

然而，這個“駕駛場景識別”的場景，看起來就是個披了個ChatGPT外衣的自動化標注平臺。

倒是很厲害，下面這么黑糊糊的一張照片，居然能標注出7輛車、7個燈、3個車道線。

除了DriveGPT，會上我還留意到了一些有趣的點：

DriveGPT會用在最近發布的新摩卡DHTPHEV上

聽到這里，我再一次迷茫了——DriveGPT是指啥。

毫末一共拿了三家主機廠的訂單

除了長城，也有了其他車企爸爸了，但不知道三家里有沒有包括長城。

2024年城市NOA要落地100個城市

挺考驗的。

這頁PPT里的“捷徑推薦”和“智能陪練”是指什么功能？

自動駕駛公司好喜歡起名字

毫末的員工自己能記全嗎？

上一篇：小天鵝洗衣機電腦板安裝步驟(小天鵝洗衣機的安裝方法)

下一篇：小天鵝洗衣機簡介(小天鵝洗衣機產品型號)

毫末的Drive GPT是什么？蹭熱點還是真有料？

相關推薦

熱門排行

最新發布

劉楚昕《泥潭》出版，余華寫推薦語

臺風“蝴蝶”逼近海南，“海浪+風暴潮”雙預警齊發

海南廣東等地迎強勁臺風雨，大范圍高溫將波及十省份

乒超聯賽第一階段收官：樊振東7戰7勝，王楚欽3天打出5個3∶0

空調拆裝步驟圖(如何正確拆卸和安裝空調)

隨便看看

24小時家電維修熱線： 400—1558638

毫末的Drive GPT是什么？蹭熱點還是真有料？

相關推薦

熱門排行

最新發布

劉楚昕《泥潭》出版，余華寫推薦語

臺風“蝴蝶”逼近海南，“海浪+風暴潮”雙預警齊發

海南廣東等地迎強勁臺風雨，大范圍高溫將波及十省份

乒超聯賽第一階段收官：樊振東7戰7勝，王楚欽3天打出5個3∶0

空調拆裝步驟圖(如何正確拆卸和安裝空調)

隨便看看

24小時家電維修熱線： 400—1558638

毫末的Drive GPT是什么？蹭熱點還是真有料？

臺風“蝴蝶”逼近海南，“海浪+風暴潮”雙預警齊發

海南廣東等地迎強勁臺風雨，大范圍高溫將波及十省份

乒超聯賽第一階段收官：樊振東7戰7勝，王楚欽3天打出5個3∶0