Ξ當(dāng)前位置：首頁>行業(yè)之窗>向自動(dòng)駕駛3.0時(shí)代邁進(jìn) 毫末智行DriveGPT雪湖·海若用200天成長(zhǎng)“蝶變”

向自動(dòng)駕駛3.0時(shí)代邁進(jìn) 毫末智行DriveGPT雪湖·海若用200天成長(zhǎng)“蝶變”

來源：網(wǎng)絡(luò) 時(shí)間：2023-10-12 編輯：亞訊編輯部 評(píng)論 收藏

分享到

【亞訊車網(wǎng)linktxt.cn】2023年10月11日，第九屆HAOMO AI DAY盛大開幕。

2023年10月11日，第九屆HAOMO AI DAY盛大開幕。本次HAOMO AI DAY以“BETTER AI，BETTER HAOMO”為主題，內(nèi)容豐富，既有業(yè)內(nèi)專家的精彩講座和尖端技術(shù)的展覽，同時(shí)也設(shè)有多個(gè)活潑有趣的活動(dòng)和互動(dòng)環(huán)節(jié)，使參與者深刻體驗(yàn)到了自動(dòng)駕駛技術(shù)的吸引力和可能性。

歷屆HAOMO AI DAY的核心主題都是聚焦最硬核的自動(dòng)駕駛AI技術(shù)。此次，毫末智行CEO顧維灝帶來了主題為《自動(dòng)駕駛3.0時(shí)代：大模型將重塑汽車智能化的技術(shù)路線》的演講，分享了毫末對(duì)于自動(dòng)駕駛3.0時(shí)代AI開發(fā)模式的思考以及自動(dòng)駕駛生成式大模型毫末DriveGPT大模型的最新進(jìn)展和實(shí)踐。

（毫末智行CEO顧維灝）

顧維灝認(rèn)為，自動(dòng)駕駛3.0時(shí)代與2.0時(shí)代相比，其開發(fā)模式和技術(shù)框架都將發(fā)生顛覆性的變革。在自動(dòng)駕駛2.0時(shí)代，以小數(shù)據(jù)、小模型為特征，以Case任務(wù)驅(qū)動(dòng)為開發(fā)模式。而自動(dòng)駕駛3.0時(shí)代，以大數(shù)據(jù)、大模型為特征，以數(shù)據(jù)驅(qū)動(dòng)為開發(fā)模式。

（毫末提出的自動(dòng)駕駛3.0時(shí)代的技術(shù)架構(gòu)演進(jìn)趨勢(shì)）

相比2.0時(shí)代主要采用傳統(tǒng)模塊化框架，3.0時(shí)代的技術(shù)框架會(huì)發(fā)生顛覆性變化。首先，自動(dòng)駕駛會(huì)在云端實(shí)現(xiàn)感知大模型和認(rèn)知大模型的能力突破，并將車端各類小模型逐步統(tǒng)一為感知模型和認(rèn)知模型，同時(shí)將控制模塊也AI模型化。隨后，車端智駕系統(tǒng)的演進(jìn)路線也是一方面會(huì)逐步全鏈路模型化，另一方面是逐步大模型化，即小模型逐漸統(tǒng)一到大模型內(nèi)。然后，云端大模型也可以通過剪枝、蒸餾等方式逐步提升車端的感知能力，甚至在通訊環(huán)境比較好的地方，大模型甚至可以通過車云協(xié)同的方式實(shí)現(xiàn)遠(yuǎn)程控車。最后，在未來車端、云端都是端到端的自動(dòng)駕駛大模型。

顧維灝還詳細(xì)介紹了毫末DriveGPT大模型在推出200天后的整體進(jìn)展。首先是DriveGPT訓(xùn)練數(shù)據(jù)規(guī)模提升。截至2023年10月DriveGPT雪湖·海若共計(jì)篩選出超過100億幀互聯(lián)網(wǎng)圖片數(shù)據(jù)集和480萬段包含人駕行為的自動(dòng)駕駛4D Clips數(shù)據(jù)。其次是通用感知能力提升，DriveGPT通過引入多模態(tài)大模型，實(shí)現(xiàn)文、圖、視頻多模態(tài)信息的整合，獲得識(shí)別萬物的能力；同時(shí)，通過與NeRF技術(shù)整合，DriveGPT實(shí)現(xiàn)更強(qiáng)的4D空間重建能力，獲得對(duì)三維空間和時(shí)序的全面建模能力；最后是通用認(rèn)知能力提升，借助大語言模型，DriveGPT將世界知識(shí)引入到駕駛策略中。

顧維灝認(rèn)為，未來的自動(dòng)駕駛系統(tǒng)一定是跟人類駕駛員一樣，不但具備對(duì)三維空間的精確感知測(cè)量能力，而且能夠像人類一樣理解萬物之間的聯(lián)系、事件發(fā)生的邏輯和背后的常識(shí)，并且能基于這些人類社會(huì)的經(jīng)驗(yàn)來做出更好的駕駛策略，真正實(shí)現(xiàn)完全無人駕駛。

毫末DriveGPT是如何具備識(shí)別萬物的他通用感知能力，以及擁有世界知識(shí)的通用認(rèn)知能力？顧維灝也給出了詳盡解釋。

（毫末DriveGPT升級(jí)：大模型讓自動(dòng)駕駛擁有世界知識(shí)）

在感知階段，DriveGPT首先通過構(gòu)建視覺感知大模型來實(shí)現(xiàn)對(duì)真實(shí)物理世界的學(xué)習(xí)，將真實(shí)世界建模到三維空間，再加上時(shí)序形成4D向量空間；然后，在構(gòu)建對(duì)真實(shí)物理世界的4D感知基礎(chǔ)上，毫末進(jìn)一步引入開源的視覺文本多模態(tài)大模型，構(gòu)建更為通用的語義感知大模型，實(shí)現(xiàn)文、圖、視頻多模態(tài)信息的整合，從而完成4D向量空間到語義空間的對(duì)齊，實(shí)現(xiàn)跟人類一樣的“識(shí)別萬物”的能力。

（毫末DriveGPT通用感知大模型：讓自動(dòng)駕駛認(rèn)識(shí)萬物）

毫末通用感知能力的進(jìn)化升級(jí)包含兩個(gè)方面。首先是視覺大模型的CV Backbone的持續(xù)進(jìn)化，當(dāng)前基于大規(guī)模數(shù)據(jù)的自監(jiān)督學(xué)習(xí)訓(xùn)練范式，采用Transformer大模型架構(gòu)，實(shí)現(xiàn)視頻生成的方式來進(jìn)行訓(xùn)練，構(gòu)建包含三維的幾何結(jié)構(gòu)、圖片紋理、時(shí)序信息等信息的4D表征空間，實(shí)現(xiàn)對(duì)全面的物理世界的感知和預(yù)測(cè)。其次是構(gòu)建起更基礎(chǔ)的通用語義感知大模型，在視覺大模型基礎(chǔ)上引入視覺文本多模態(tài)模型來提升感知效果，視覺文本多模態(tài)模型可以對(duì)齊自然語言信息和圖片的視覺信息，在自動(dòng)駕駛場(chǎng)景中就可以對(duì)齊視覺和語言的特征空間，從而具備識(shí)別萬物的能力，也由此可以更好完成目標(biāo)檢測(cè)、目標(biāo)跟蹤、深度預(yù)測(cè)等各類任務(wù)。

在認(rèn)知階段，基于通用語義感知大模型提供的“萬物識(shí)別”能力，DriveGPT通過構(gòu)建駕駛語言（Drive Language）來描述駕駛環(huán)境和駕駛意圖，再結(jié)合導(dǎo)航引導(dǎo)信息以及自車歷史動(dòng)作，并借助外部大語言模型LLM的海量知識(shí)來輔助給出駕駛決策。

由于大語言模型已經(jīng)學(xué)習(xí)到并壓縮了人類社會(huì)的全部知識(shí)，因而也就包含了駕駛相關(guān)的知識(shí)。經(jīng)過毫末對(duì)大語言模型的專門訓(xùn)練和微調(diào)，從而讓大語言模型更好地適配自動(dòng)駕駛?cè)蝿?wù)，使得大語言模型能真正看懂駕駛環(huán)境、解釋駕駛行為，做出駕駛決策。認(rèn)知大模型通過與大語言模型結(jié)合，使得自動(dòng)駕駛認(rèn)知決策獲得了人類社會(huì)的常識(shí)和推理能力，也就是獲得了世界知識(shí)，從而提升自動(dòng)駕駛策略的可解釋性和泛化性。

（毫末DriveGPT應(yīng)用的七大實(shí)踐）

在分享了最新DriveGPT大模型技術(shù)框架后，顧維灝隨后也給出了毫末基于DriveGPT大模型開發(fā)模式的七大應(yīng)用實(shí)踐，包括駕駛場(chǎng)景理解、駕駛場(chǎng)景標(biāo)注、駕駛場(chǎng)景生成、駕駛場(chǎng)景遷移、駕駛行為解釋、駕駛環(huán)境預(yù)測(cè)和車端模型開發(fā)。

其中，在駕駛行為解釋方面，毫末DriveGPT在原有結(jié)合場(chǎng)景庫(kù)及人工標(biāo)注方式來對(duì)駕駛行為進(jìn)行解釋的基礎(chǔ)上，升級(jí)為引入大語言模型來解釋駕駛環(huán)境，讓AI自己解釋自己的駕駛決策。接下來，毫末會(huì)持續(xù)通過構(gòu)建自動(dòng)駕駛描述數(shù)據(jù)，來對(duì)大語言模型進(jìn)行微調(diào)，讓大語言模型能夠像駕校教練或者陪練一樣，對(duì)駕駛行為做出更詳細(xì)的解釋。

（駕駛行為解釋：透視AI的思考過程）

駕駛環(huán)境預(yù)測(cè)方面，毫末DriveGPT原來基于海量人駕數(shù)據(jù)預(yù)訓(xùn)練和接管數(shù)據(jù)的反饋強(qiáng)化學(xué)習(xí)來完成未來BEV場(chǎng)景的預(yù)測(cè)生成，現(xiàn)在則是通過引入大語言模型，在使用駕駛行為數(shù)據(jù)的同時(shí)，讓大語言模型對(duì)當(dāng)前的駕駛環(huán)境給出解釋和駕駛建議，然后再將駕駛解釋和駕駛建議作為prompt輸入到生成式大模型，來讓自動(dòng)駕駛大模型獲得外部大語言模型內(nèi)的人類知識(shí)，從而具備常識(shí)，才能理解人類社會(huì)的各種明規(guī)則、潛規(guī)則，才能跟老司機(jī)一樣，預(yù)測(cè)未來最有可能出現(xiàn)的駕駛場(chǎng)景，從而與各類障礙物進(jìn)行更好地交互。

（駕駛環(huán)境預(yù)測(cè)：生成未來世界）

車端模型開發(fā)模式變革方面，毫末正在嘗試用蒸餾的方法，也就是用大模型輸出的偽標(biāo)簽作為監(jiān)督信號(hào)，讓車端小模型來學(xué)習(xí)云端大模型的預(yù)測(cè)結(jié)果，或者通過對(duì)齊Feature Map的方式，讓車端小模型直接學(xué)習(xí)并對(duì)齊云端的Feature Map，從而提升車端小模型的能力。基于蒸餾的方式，可以讓車端的感知效果提升五個(gè)百分點(diǎn)。

（車端模型開發(fā)新模式：把大模型蒸餾成小模型）

此外，毫末DriveGPT的駕駛場(chǎng)景理解可以對(duì)海量駕駛場(chǎng)景數(shù)據(jù)進(jìn)行秒級(jí)特征搜索，從而實(shí)現(xiàn)更高效的數(shù)據(jù)篩選，為大模型挖掘海量高質(zhì)量訓(xùn)練數(shù)據(jù)；駕駛場(chǎng)景標(biāo)注是采用了開集（Open-set）場(chǎng)景下的Zero-Shot自動(dòng)標(biāo)注，可實(shí)現(xiàn)對(duì)任意物體既快速又精準(zhǔn)的標(biāo)注，不僅可實(shí)現(xiàn)針對(duì)新品類的Zero-Shot快速標(biāo)注，而且精度還非常高，預(yù)標(biāo)注準(zhǔn)召達(dá)到80%以上；駕駛場(chǎng)景生成，可以基于駕駛場(chǎng)景的文生圖模型，通過文字描述批量生成平時(shí)難以獲取的Hardcase數(shù)據(jù)，實(shí)現(xiàn)無中生有的可控生成；對(duì)于駕駛場(chǎng)景遷移，基于AIGC生成能力，可實(shí)現(xiàn)多目標(biāo)場(chǎng)景生成，能將采集到的一個(gè)場(chǎng)景，遷移到該場(chǎng)景的不同時(shí)間、不同天氣、不同光照等各類新場(chǎng)景下，可同時(shí)獲取全天候駕駛數(shù)據(jù)，實(shí)現(xiàn)瞬息萬變的高效場(chǎng)景遷移。

現(xiàn)場(chǎng)，顧維灝還給出了DriveGPT賦能車端的三大測(cè)試成果：

第一個(gè)是毫末純視覺自動(dòng)泊車測(cè)試成果。毫末利用視覺感知模型，使用魚眼相機(jī)可以識(shí)別墻、柱子、車輛等各類型的邊界輪廓，形成360度的全視野動(dòng)態(tài)感知，可以做到在15米范圍內(nèi)達(dá)到30cm的測(cè)量精度，2米內(nèi)精度可以高于10cm。這樣的精度可實(shí)現(xiàn)用視覺取代USS，從而進(jìn)一步降低整體智駕方案成本。

（毫末純視覺泊車）

第二個(gè)是毫末對(duì)交通場(chǎng)景全要素識(shí)別測(cè)試成果。DriveGPT基于通用感知的萬物識(shí)別的能力，從原有感知模型只能識(shí)別少數(shù)幾類障礙物和車道線，到現(xiàn)在可以識(shí)別各類交通標(biāo)志、地面箭頭，甚至井蓋等交通場(chǎng)景的全要素?cái)?shù)據(jù)。大量高質(zhì)量的道路場(chǎng)景全要素標(biāo)注數(shù)據(jù)，可以有效幫助毫末重感知的車端感知模型實(shí)現(xiàn)效果的提升，助力城市NOH的加速進(jìn)城。

第三個(gè)是毫末城市NOH對(duì)小目標(biāo)障礙物檢測(cè)的測(cè)試成果。毫末在當(dāng)前城市NOH的測(cè)試中，可以在城市道路場(chǎng)景中，在時(shí)速最高70公里的50米距離外，就能檢測(cè)到大概高度為35cm的小目標(biāo)障礙物，可以做到100%的成功繞障或剎停，這樣可以對(duì)道路上穿行的小動(dòng)物等移動(dòng)障礙物起到很好地檢測(cè)保護(hù)作用。

據(jù)顧維灝透露，DriveGPT的云端能力也對(duì)外開放，合作伙伴可以通過使用API、模型的專項(xiàng)優(yōu)化、服務(wù)的私有化部署，與毫末合作。DriveGPT發(fā)布200天左右的時(shí)間里，累積480萬段Clips高質(zhì)量測(cè)試。目前已有生態(tài)伙伴17家，助力生態(tài)伙伴提效90%。2023年DriveGPT成功入選“北京市通用人工智能產(chǎn)業(yè)創(chuàng)新伙伴計(jì)劃”成為首批模型伙伴觀察員及入選北京市首批人工智能10個(gè)行業(yè)大模型應(yīng)用案例。此外，DriveGPT還助力毫末榮獲2023中國(guó)AI基礎(chǔ)大模型創(chuàng)新企業(yè)的稱號(hào)。

顧維灝也提到，毫末DriveGPT大模型的應(yīng)用，在自動(dòng)駕駛系統(tǒng)開發(fā)過程中帶來了巨大技術(shù)提升，使得毫末的自動(dòng)駕駛系統(tǒng)開發(fā)徹底進(jìn)入了全新模式，新開發(fā)模式和技術(shù)架構(gòu)將大大加速汽車智能化的進(jìn)化進(jìn)程。

免責(zé)聲明：本文轉(zhuǎn)自網(wǎng)絡(luò)，僅代表作者個(gè)人觀點(diǎn)，與亞訊車網(wǎng)無關(guān)。其原創(chuàng)性以及文中陳述文字和內(nèi)容（包括圖片版權(quán)等問題）未經(jīng)本站證實(shí)，對(duì)本文以及其中全部或者部分內(nèi)容、文字的真實(shí)性、完整性、及時(shí)性本站不作任何保證或承諾，請(qǐng)讀者僅作參考，并請(qǐng)自行核實(shí)相關(guān)內(nèi)容。本站不承擔(dān)此類作品侵權(quán)行為的直接責(zé)任及連帶責(zé)任。

買車、賣車就上亞訊車網(wǎng) linktxt.cn

汽車團(tuán)購(gòu) tg.yescar.cn，省心、省力、省錢！團(tuán)購(gòu)電話：400-6808097

編輯：亞訊編輯部

關(guān)鍵詞：模型,駕駛,DriveGPT,場(chǎng)景,自動(dòng)

詢價(jià)(詢價(jià)詳情會(huì)以短信方式直接發(fā)送給經(jīng)銷商，立即回復(fù)，無需等待！)